Web上的网页时会发现两部分内容:一部分称之为 “主题 ”内容,主题内容体现的是网页的主题信息;另一部分称之为“噪音 ”内容,例如与主题内容无关的广告链接、图像和导航条等。用户要从 Web网页中提取有用信息比较困难,这是因为 Web页面上分布在主题信息网页四周的“噪音 ”内容,使文档主题很不明确,使用户不能迅速定位所需的主要信息。
那么如何才能准确地定位网页上的主题信息,避免噪音信息干扰呢?这就涉及到网页信息的分类提取
问题。准确完整地提取网页中的主题信息是提高 Web应用服务质量的一项关键技术,网络爬虫作为这一技术实现的典型代表,具有巨大的使用价值。它可以以网页的主题内容为处理对象,提取出主题内容后可以简化网页内标签结构的复杂性并减小网页的大小,从而节省后续处理过程的时间和空间开销 。
//瞬间觉得爬虫是个非常好的东西,咱们的网页信息自动提取技术,大概就靠它了吧。
问题一出现了,爬虫是自己能感觉到网页变化的吗?若能,便是晴天;若不能,方法一:
要再用一个工具先检测网页某个模块的内容是否变化,因此一个爬虫带着一个检测工具,两者绑定。方法二:让爬虫不断的提取信息,不断的提取,提取来的信息和前一次提取的信息作比较,若变了,则覆盖前一次保存在数据库的内容(这样爬虫太累了吧,肯定会用很多时间和空间,我认为效率不高)。
2、网络爬虫的工作原理
所谓网络爬虫(Web Spider)是一个自动提取网页的程序,它可以从万维网上自动下载网页,并将收集到的信息存储到本地数据库中(//棒极了)。爬虫从一个或若干初始网页
的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的 URL放入队列,直到满足系统的一定停止条件。另外,所有被爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便之后的查询和检索 [3~4],其工作流如图
//(扫盲了:URL:统一资源定位符(英语
UniformResourceLocator的缩写)也被称为网页地址,是因特网上标准的资源的地址。)打开我们南开大学网站会发现,每个网页的网址都不同,而每个网页的子网页(暂且这么叫着,意思是,在这个网页里面打开的那些网页--超链接,大家都懂的)的开头有一部分是一样的,后面不相同。那么我们可以根据这个特点,将某网页的URL作为初始URL,让爬虫去把这个URL下所有的链接都遍历一遍,都提取出来。(不知道这么理解对不对,是不是太乐观了)这里是问题二
3、网络爬虫的基本构成
传统网络爬虫包括协议处理模块、URL处理模块和内容检测模块。其中协议处理模块
用来提供网络爬虫在爬行时所需的网络协议(//大概就是HTTP吧?);URL处理模块负责对采集的URL进行排序;内容检测模块用来处理网络上大量存在的内容重复的页面(//感觉不需要,咱们学校网站上没怎么有重复的页面啊),从而提高网络爬虫的工作效率,网络
爬虫的基本功能结构如图 :
4、爬虫网络信息提取的步骤设计
①判断文件的类型是否是txt/html,如果不是则跳过,如果是继续分析文件;