搜索
您的当前位置:首页正文

网络爬虫在网页信息提取中的应用研究

来源:易榕旅网


Web上的网页时会发现两部分内容:一部分称之为 “主题 ”内容,主题内容体现的是网页的主题信息;另一部分称之为“噪音 ”内容,例如与主题内容无关的广告链接、图像和导航条等。用户要从 Web网页中提取有用信息比较困难,这是因为 Web页面上分布在主题信息网页四周的“噪音 ”内容,使文档主题很不明确,使用户不能迅速定位所需的主要信息。

那么如何才能准确地定位网页上的主题信息,避免噪音信息干扰呢?这就涉及到网页信息的分类提取

问题。准确完整地提取网页中的主题信息是提高 Web应用服务质量的一项关键技术,网络爬虫作为这一技术实现的典型代表,具有巨大的使用价值。它可以以网页的主题内容为处理对象,提取出主题内容后可以简化网页内标签结构的复杂性并减小网页的大小,从而节省后续处理过程的时间和空间开销 。

//瞬间觉得爬虫是个非常好的东西,咱们的网页信息自动提取技术,大概就靠它了吧。

问题一出现了,爬虫是自己能感觉到网页变化的吗?若能,便是晴天;若不能,方法一:

要再用一个工具先检测网页某个模块的内容是否变化,因此一个爬虫带着一个检测工具,两者绑定。方法二:让爬虫不断的提取信息,不断的提取,提取来的信息和前一次提取的信息作比较,若变了,则覆盖前一次保存在数据库的内容(这样爬虫太累了吧,肯定会用很多时间和空间,我认为效率不高)。

2、网络爬虫的工作原理

所谓网络爬虫(Web Spider)是一个自动提取网页的程序,它可以从万维网上自动下载网页,并将收集到的信息存储到本地数据库中(//棒极了)。爬虫从一个或若干初始网页

的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL放入队列,直到满足系统的一定停止条件。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索 [3~4],其工作流如图

//(扫盲了:URL:统一资源定位符(英语

UniformResourceLocator的缩写)也被称为网页地址,是因特网上标准的资源的地址。)打开我们南开大学网站会发现,每个网页的网址都不同,而每个网页的子网页(暂且这么叫着,意思是,在这个网页里面打开的那些网页--超链接,大家都懂的)的开头有一部分是一样的,后面不相同。那么我们可以根据这个特点,将某网页的URL作为初始URL,让爬虫去把这个URL下所有的链接都遍历一遍,都提取出来。(不知道这么理解对不对,是不是太乐观了)这里是问题二

3、网络爬虫的基本构成

传统网络爬虫包括协议处理模块、URL处理模块和内容检测模块。其中协议处理模块

用来提供网络爬虫在爬行时所需的网络协议(//大概就是HTTP吧?);URL处理模块负责对采集的URL进行排序;内容检测模块用来处理网络上大量存在的内容重复的页面(//感觉不需要,咱们学校网站上没怎么有重复的页面啊),从而提高网络爬虫的工作效率,网络

爬虫的基本功能结构如图 :

4、爬虫网络信息提取的步骤设计

①判断文件的类型是否是txt/html,如果不是则跳过,如果是继续分析文件;

②其次读取文件,并利用正则表达式匹配的方法,寻找标签,,,等,记录下该URL;

③最后将记录下来的URL 按照已经设定好的格式统一完整,以备进行进一步的URL 分析。

//这是爬虫抓取网址URL的部分

//下面是爬虫抓取网页信息的部分

5、网页信息提取框架的实现

对于网络信息的网络爬虫实现, 本文采用模块式的实现方法,将爬虫分为三个模块进行设计实现。

5.1网页采集模块

这里的采集模块实际上包含两个部分。第一个部分是单纯网页采集模块,它负责抓取网页,是整个系统的关键部分,直接影响爬行效果。第二个是信息分析和过滤模块,它负责将网页中的信息进行自动归类,然后根据解析提取出网页的主要数据,包括标题、节选、发布时间、链接地址等,将所有的噪音信息剔除,最后将提取出的信息展示给用户。

//这里的噪音信息,大概就是标题···了,那么爬虫的思路就是,寻找到某个具有固定特征的URL,然后抓取内容,之后再剔除噪音,然后在展示。

5.2 索引模块

为HTML 页面来创建索引。在下载的过程中,不可避免地会遇到重复的链接,如何消除这些重复的链接,是个很复杂的议题。URL 的去重可以说是爬虫系统中最重要的一部分,直接影响爬行效率和效果,索引模块

主要就是为了去除重复链接的。

//遇到重复的链接,对于我们来说,也不存在这个问题吧,每个网页的链接是独一无二的。

5.3搜索模块

搜索模块是系统与用户交互的模块,系统根据用户输入的查询语句,负责在数据库和索引文件上搜索出相应数据并按照一定的排序反馈给用户。网络爬虫的设计流程中,核心部分是获得网页的 URL列表、创建下载的客户端、获取并存储得到的网页结果。

6 程序展示,各种看不懂:

图 4 在以抓取网页中在抓取HTML

//问题三在这里:网络爬虫应不应该是我们研究的重点,这个

Top