(12)发明专利申请
(21)申请号 CN201510377049.3 (22)申请日 2015.07.01 (71)申请人 华东师范大学
地址 200241 上海市闵行区东川路500号
(10)申请公布号 CN105045838A
(43)申请公布日 2015.11.11
(72)发明人 贺樑;黄保荃;杨燕
(74)专利代理机构 上海蓝迪专利事务所
代理人 徐筱梅
(51)Int.CI
G06F17/30;
权利要求说明书 说明书 幅图
(54)发明名称
基于分布式存储系统的网络爬虫系统
(57)摘要
本发明公开了一种基于分布式存储系统的
网络爬虫系统,该系统包括基础服务模块、抓取器及设置于抓取器内的任务调度模块、解析服务模块、页面下载模块、页面更新模块及数据存储模块,任务调度模块控制抓取器抓取数据的流程;解析服务模块解析网页的内容并且提供自定义的模版抽取信息;页面下载模块下载网页的源代码;页面更新模块获取网页更新过后的数据信
息;数据存储模块通过结构化信息抽取的方法,把抽取过后的内容存储到分布式存储系统的数据库中;基础服务模块完成抓取器的流量控制、抓取器的监控报警机制、URL去重服务、URL归一化服务及js/css资源管理服务。本发明的特点:一是灵活的爬虫方法,二是智能自动化对网页内容信息结构化抽取。
法律状态
法律状态公告日
2015-11-11 2015-11-11 2015-12-09 2015-12-09 2018-10-09
法律状态信息
公开 公开
实质审查的生效 实质审查的生效
发明专利申请公布后的视为撤回
法律状态
公开 公开
实质审查的生效 实质审查的生效
发明专利申请公布后的视为撤回
权利要求说明书
基于分布式存储系统的网络爬虫系统的权利要求说明书内容是....请下载后查看
说明书
基于分布式存储系统的网络爬虫系统的说明书内容是....请下载后查看
因篇幅问题不能全部显示,请点此查看更多更全内容