搜索
您的当前位置:首页正文

基于分布式存储系统的网络爬虫系统

来源:易榕旅网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(21)申请号 CN201510377049.3 (22)申请日 2015.07.01 (71)申请人 华东师范大学

地址 200241 上海市闵行区东川路500号

(10)申请公布号 CN105045838A

(43)申请公布日 2015.11.11

(72)发明人 贺樑;黄保荃;杨燕

(74)专利代理机构 上海蓝迪专利事务所

代理人 徐筱梅

(51)Int.CI

G06F17/30;

权利要求说明书 说明书 幅图

(54)发明名称

基于分布式存储系统的网络爬虫系统

(57)摘要

本发明公开了一种基于分布式存储系统的

网络爬虫系统,该系统包括基础服务模块、抓取器及设置于抓取器内的任务调度模块、解析服务模块、页面下载模块、页面更新模块及数据存储模块,任务调度模块控制抓取器抓取数据的流程;解析服务模块解析网页的内容并且提供自定义的模版抽取信息;页面下载模块下载网页的源代码;页面更新模块获取网页更新过后的数据信

息;数据存储模块通过结构化信息抽取的方法,把抽取过后的内容存储到分布式存储系统的数据库中;基础服务模块完成抓取器的流量控制、抓取器的监控报警机制、URL去重服务、URL归一化服务及js/css资源管理服务。本发明的特点:一是灵活的爬虫方法,二是智能自动化对网页内容信息结构化抽取。

法律状态

法律状态公告日

2015-11-11 2015-11-11 2015-12-09 2015-12-09 2018-10-09

法律状态信息

公开 公开

实质审查的生效 实质审查的生效

发明专利申请公布后的视为撤回

法律状态

公开 公开

实质审查的生效 实质审查的生效

发明专利申请公布后的视为撤回

权利要求说明书

基于分布式存储系统的网络爬虫系统的权利要求说明书内容是....请下载后查看

说明书

基于分布式存储系统的网络爬虫系统的说明书内容是....请下载后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Top