大数据云采集CCP平台
PFG独立研发的“CCP(云数据采集)平台”,拥有14个自主开发的软件著作权,囊括了数据采集、数据清洗、中文语义识别和数据库等多种技术革新。PFG极强的独立研发能力保证了“互联网+”研究战略的进行。
“CCP(云数据采集)”平台采用了先进的多线程、分布式架构,可以同时在数十台终端电脑上运行,每个终端可以同时运行30个线程,构成了一个庞大的网络,能够在短时间内抓取大量的网页数据。另外,平台还设计了缓存池,大量的数据独立储存在每台终端中,数据采集完毕,再分别独立上传到服务器上,避免了短时间内大量数据入库造成的冲击。在应对特殊需求方面,CCP设计了IP变换功能,可以变换IP来访问网页,突破默写访问的限制。在应对动态页面方面,CCP设计了两种采集模式:无刷新后台数据采集和模拟浏览器采集。前者可以用于应对大规模的静态页面,实现快速采集;后者可以应对日益增加的动态页面,模拟浏览器工作,实现所见即所得。在应对图片文字方面,CCP设计了OCR识别模块,可以把采集到的图片文字识别出来,各种各样的页面数据都能够实现采集。
Cloud Collection Platform for Internet open data
PFG独立研发的“CCP(云数据采集)平台”,拥有14个自主开发的软件著作权,囊括了数据采集、数据清洗、中文语义识别和数据库等多种技术革新。PFG极强的独立研发能力保证了“互联网+”研究战略的进行。
“CCP(云数据采集)”平台采用了先进的多线程、分布式架构,可以同时在数十台终端电脑上运行,每个终端可以同时运行30个线程,构成了一个庞大的网络,能够在短时间内抓取大量的网页数据。另外,平台还设计了缓存池,大量的数据独立储存在每台终端中,数据采集完毕,再分别独立上传到服务器上,避免了短时间内大量数据入库造成的冲击。在应对特殊需求方面,CCP设计了IP变换功能,可以变换IP来访问网页,突破默写访问的限制。在应对动态页面方面,CCP设计了两种采集模式:无刷新后台数据采集和模拟浏览器采集。前者可以用于应对大规模的静态页面,实现快速采集;后者可以应对日益增加的动态页面,模拟浏览器工作,实现所见即所得。在应对图片文字方面,CCP设计了OCR识别模块,可以把采集到的图片文字识别出来,各种各样的页面数据都能够实现采集。