国家授权正规彩票平台

『企业互联网服务』

信息采集爬虫系统

产品概述


 

    过去几十年里,Web 的迅速发展,大量的数据通过Web 发布,随着网络的高速发展,互联网成为海量信息的载体。当今是一个数据大爆炸的时代,数据就是资产,数据资产的获取成为了众多公司发展重要一环,而作为互联网数据批量自动采集的工具-爬虫(Spider),更是被各个领域重点研究应用。

    信息采集爬虫系统,基于采购部门对众多平台物料报价进行筛选、比价的业务需求而产生,系统采用爬虫工具对制定网站进行数据爬取和处理,过程中采用多种反爬机制、动态操作、增量爬取等技术,最终形成多个供应商对某物料的比价表和分析图表,减轻采购人员人工筛查、数据对比等的繁重工作量,同时提供合理的可视化图表对数据进行展示,便于采购人员可迅速筛选性价比最优物料,为公司成本控制做出贡献。

    虽然信息采集爬虫系统于采购业务诞生,但整体框架可用于电力、医疗、金融等多个热门行业领域,可对国家统计数据、医疗数据、金融交易数据等公开网页进行批量爬取,用于满足制作门户首页新闻、产品市场分析、用户行为分析、概率统计等市场需求。

 

产品定位


 

    信息采集爬虫系统,是一个利用webmagic爬虫框架开发的应用型工具系统,主要用于对万维网数据批量采集以及数据分析,用户根据最终的分析报表和可视化图表进行决策。

    我们为用户解决的问题如下:

Ø  解决人员有限、精力不足问题

企业用户面临着人员有限、业务繁杂,运营管理主要凭经验,无法规范、高效的进行采购询价比价的工作,往往会有信息遗漏。

Ø  解决工作量大、数据无法直接获取问题

由于询价需要查看多家平台报价和网站信息,每次购买物资均需反复点开网页,查看复制数据,操作反复,工作量极大,效率低下。

对于某些特殊数据,百度搜索或网页根本无法直接提供相应的数据,只能通过爬取原始数据后利用统计学方法进行间接的研究分析,才可得出所需的答案。

Ø  解决缺少历史积累,难以预测的问题

每次采购物资后,物资价格等数据均被埋没,很少用于后续采购时的参考,每次采购都是新的开始,缺少历史数据的支撑,难以对未来同期的价格趋势进行预测,询价比价时难以做到心中有数。

Ø  解决分析方法原始、结论不直观的问题

 企业目前的分析方法仍停留在数据报表阶段,满眼都是数据,无法直观发现规律和异常,得出的结论往往会不准确。

 

产品功能


 

    信息采集爬虫系统,在技术上采用B/S系统架构和设计理念,为了提升爬取效率,程序部署在云服务器上,同时采用Webmagic爬虫框架定制开发特定网站爬取程序,为客户解决了采购询价比价任务重等难题。

    信息采集爬虫系统为应用工具系统,业务简洁清晰,系统功能主要包括:数据爬取、数据统计预测、数据可视化。

Ø  数据爬取

  1. 通过对每个网站配置相关参数,可实现对爬虫程序定时自动爬取,提升用户工作产能。
  2. 同时针对每个网站的特性,采用不同的反爬机制,不用担心被封ip,实现长期爬取相关网页的数据。
  3. 实现爬取字段的二次处理,同时支持多接口开发,可与ERP等多个企业管理软件进行数据传输,具有数据存储高准确率和传输零丢失率的特性。

Ø  数据统计预测

  1. 利用统计学知识对爬取的数据进行差异分析和关联度分析,寻找不同指标间的内外在联系,比如时间周期与价格的影响,地区与价格的影响等。
  2. 利用统计学理论,结合多个因素的相关性,总结历史数据变化规律,预测未来数据变化。

       Ø  数据可视化

  1. 本系统提供各种规则的数据筛选处理,同时附带多种分析图表,清晰形象的展示每个场景下数据变化趋势和规律,便于用户快速做出决策,并支持excel导出。

  2. 同时,系统首页为定制化的可视化页面,可从ERP等系统中获取其他数据进行更为精细的分析,并针对各种分析业务场景采用特定的可视化图表对统计数据进行展示分析。

 

优势特色


 

    信息采集爬虫系统,采用主流的爬虫框架-Webmagic来开发爬取程序,其中使用ip代理、浏览器模拟操作、增量爬取等技术,避开各种反爬陷阱,顺利从指定网站中爬取数据。

    本产品的优势特点更在于场景分析和数据分析,系统根据采购业务的特定场景,设计符合用户询价比价业务逻辑的查询界面和可视化分析界面。对于设计的业务场景,基本适用所有公司采购业务数据分析,且可作为其他业务分析的参考。同时系统采用易扩展的图表插件,可根据实际业务调整设计出形象贴切的可视化图表。

    本系统为了兼容市面其他java开发的程序系统,易于接口扩展和开发,故采用java编写的webmagic框架开发爬虫程序。多个系统间数据传递准确率高,数据丰富维度多,可更好的辅助用户进行经营决策。

 

应用案例


 

    1、门户新闻

    信息采集爬虫系统对互联网中电力行业核心网站公布信息进行爬取,后台进行处理后推送到门户中进行展示,如图1“湖北巨能互联售电有限公司”门户网站的首页新闻。

图1、门户新闻

    2、交易数据爬取

    利用信息采集爬虫工具,对售电云平台后台的电力交易数据进行爬取,并利用统计学方法对预测分析,如图2所示。

图2、交易数据预测分析

    3、用户行为数据挖掘

    利用信息采集爬虫系统对互联网产品的用户评价做情感分析,实时监控产品在消费者心目中的形象,对新发布的产品及时监控,以便调整策略,如图3所示。

图3、用户数据挖掘