您好,欢迎来到易榕旅网。
搜索
您的当前位置:首页信息检索技能训练

信息检索技能训练

来源:易榕旅网
目录

摘要…………………………………………………………………………………………………2 Abstract……………………………………………………………………………………………..3 引言…………………………………………………………………………………………………4 一、概述…………………………………………………………………………………………….4

1.1 课题背景与研究意义 ........................................................................................................ 4

1.1.1课题背景 .................................................................................................................. 4 1.1.2研究现状 .................................................................................................................. 5 1.1.3研究意义 .................................................................................................................. 5

二、微博消息传播模型……………………………………………………………………………5

2.1微博消息传播的特点 ......................................................................................................... 5 2.2微博用户状态 ..................................................................................................................... 6 2.3微博意见领袖 ..................................................................................................................... 6 2.4微博传播 ............................................................................................................................. 6 三、微博舆情管理平台的设计与实现……………………………………………………………6

3.1微博舆情管理平台的总体流程 ......................................................................................... 6 3.2数据分析系统设计流程 ..................................................................................................... 7 四、微博舆情管理平台的实现……………………………………………………………………7

4.1样本选取与数据来源 ......................................................................................................... 7 4.2微博数据转化 ..................................................................................................................... 7 4.3微博文本聚类 ..................................................................................................................... 8 4.4微博意见领袖重要性评估 ................................................................................................. 8 4.5微博舆情预警模块 ............................................................................................................. 8

4.5.1微博舆情预警 .......................................................................................................... 8 4.5.2趋势分析模块 .......................................................................................................... 9 4.6趋势分析结果比较 ............................................................................................................. 9 五、结束语…………………………………………………………………………………………9 参考文

献……………………………………………………………………………………………10

1

摘要

随着网络技术应用的普及和发展,舆情的传播方式和传播速度都发生了根本性变化, 网络舆情对人类的社会状态产生了全方位的影响,微博舆情则是网络舆情的重要组成部分,它的特点有:直接性,突发性,偏差性,丰富性和互动性。

本文以微博消息为研究对象,研究了微博消息传播的特点与模型,通过对抓取数据的分析发现了微博传播的单向性,便捷性,背对脸等特点,还有微博意见领袖在微博传播中的重要作用,微博热点的产生规律。根据对数据分析的结果提出了趋势分析的算法。利用空间向量模型完成对微博内容的结构数据化,对微博消息的聚类分析,找到所要分析的某类微博内容,进而在这类微博中找出微博消息意见领袖,提出微博意见领袖影响力评估算法,并结合算法完成了微博消息预警模块的实现,初步实现了微博舆情管理平台的数据预警分析功能。

关键词:微博舆情 文本聚类 趋势分析

2

Abstract

With the popularization and development of network technology application, the spread of public opinion and velocity of propagation, fundamental changes have taken place in the state of network public opinion to the human society had a comprehensive impact, microblogging public opinion is an important part of network public opinion, its characteristics are: directness, sudden, deviation, richness and interactivity.

Based on weibo news as the research object, this paper studies the characteristics and models of the weibo message transmission, through the analysis of the data found in the spread of weibo unipolarity, convenience, his back to face etc, and microblogging opinion leaders in an important role in the microblogging, microblogging hot spots of laws. According to the results of data

analysis, trend analysis algorithm is proposed. Weibo content is completed by using space vector model.

Keywords: microblogging public opinion text clustering trend analysis

3

引言

随着时代的进步,技术的发展和web2.0时代的到来,网络舆情也呈现蓬勃发展的势头,截至2012年12月底,我国网民规模达5.64亿,手机网民规模也已达到4.20亿,我国微博用户规模为3.09亿,较2011年底增长了5873万,网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。相当一部分用户访问和发送微博的行为发生在手机终端上,截至2012年底手机微博用户规模达到2.02亿,即高达65.6%的微博用户使用手机终端访问微博。微博,即微博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台,用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。美国埃文·威廉姆斯推出的twitter是最早的微博平台,也是目前最著名的平台。2007年,中国第一家带有微博色彩的网站“饭否网”开张,到2009年新浪微博的开通,中国第一家推出微博的门户网站,微博正式进入中文上网主流人群视野。2011年10月,中国微博用户总数达到2.498亿,成世界第一大国。微博成为网络舆情的一大组成部分。

一、概述

1.1 课题背景与研究意义

1.1.1课题背景

微博,即微博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台,用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。美国埃文·威廉姆斯推出的twitter是最早的微博平台,也是目前最著名的平台。2007年,中国第一家带有微博色彩的网站“饭否网”开张,到2009年新浪微博的开通,中国第一家推出微博的门户网站,微博正式进入中文上网主流人群视野。2013年12月,中国微博用户总数达到3.09亿,成世界第一大国。微博成为网络舆情的一大组成部分。

舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治

4

态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。舆情是民众的社会政治态度。

以网络为平台,通过新闻、评论、发帖、回复等为载体表现出来的舆情,就是网络舆情。在网络上,舆情的载体主要有新闻评论,论坛(社区)发帖、跟帖,博客,播客,微博等。

与传统舆情相比,网络舆情具有传播快速和实时互动的特点。 1.1.2研究现状

随着网络技术的发展和时代的进步,网络舆情的重要性已经毋庸置疑,有关网络舆情管理与检测的研究也日趋成熟,有关网络舆情管理与监测的系统越来越多,微博舆情的分析平台也有出现,不过多数为政府和企业服务,只监控有可能爆发的负面信息和重大事件,不对普通用户开放,而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析,缺乏对微博消息未来走向的一个分析预测,也无对微博消息传播范围广度的分级。

1.1.3研究意义

网络舆情反映了民情民意,在为国家管理者决策提供参考依据的同时也存在引发社会问题的风险,尤其是国内外敌对势力经常利用互联网,别有用心地煽动不良情绪或发动串联,以期影响我国社会稳定。因此,研究如何发现互联网上的舆情、做出预警并在必要时采取合理的预控措施,成为摆在相关部门面前亟待解决的问题。

二、微博消息传播模型

2.1微博消息传播的特点

微博舆情作为网络舆情重要组成部分,有着与网络舆情共同的特点,网络舆情的特点有以下几点:直接性,突发性,偏差性,丰富性和互动性。微博也有其自身独特的特点:便捷性,原创性,背对脸。

随着智能手机的普及以及各种便捷移动电子设备的出现,各种微博移动终端使得微博消息的发表与接收变得非常便捷,使得网络舆情的直接性和突发性表现的更为突出。

根据微博典型的这3种特点,我们看出它与其他网络平台舆情传播的显著差别,而想要对微博舆情进行管理,必须很好的利用这三种特点。

5

2.2微博用户状态

微博用户分为三种状态:未知状态,转发状态,已知不传播状态。

未知状态就是不知道消息的状态,通常就是他所关注的人中没有传播这条消息;转发状态就是这个用户知道这条消息,并且对这条消息很感兴趣,转发了这条状态,就把这条消息通过他的粉丝继续传播了下去;已知不传播状态则是知道了这条消息,但是因为不感兴趣,没有转发这消息或发布相关的消息。

2.3微博意见领袖

微博意见领袖通常有着数量庞大的粉丝群,通常用户有着几十或几百的粉丝,而微博领袖的粉丝数量则通常为上万甚至几十万上百万,成为微博平台上的明星,通过发布微博消息领导着他们的粉丝意见。通过对收集到的数据的分析,从数据表明,基本上可以认为20%的意见领袖用户领导着80%的用户的意见。

微博用户影响力的标准为:粉丝数,转发率,历史转发率(该用户的活跃程度),是否认证用户。

2.4微博传播

由微博背对脸的特点可以知道微博消息传播的单向性。通过对抓取的微博数据的分析,发现20%的用户领导着80%的用户意见,而且越是在消息初期,微博意见领袖的作用就越大,意见领袖的加入会使消息有一个爆炸式的增长,而随着加入的意见领袖增加,消息传播增长趋势放缓,意见领袖的作用降低,当消息的传播广度到达一定范围后,意见领袖的影响力就趋近于零了。意见领袖在微博消息传播所占的重要作用,是传播路径上的重要节点,与消息传播的广度息息相关。

三、微博舆情管理平台的设计与实现

3.1微博舆情管理平台的总体流程

微博舆情管理平台的主要流程如下,首先输入要查询的微博消息的关键词或核心微博,

6

然后利用网络爬虫来收集微博中的消息内容,包括微博内容,转发关系,博主ID,发布时间等。然后进入中文分词模块,将微博内容分词后,将微博内容的文本数据转化为计算机可以处理的结构化数据,将所有相关微博内容预处理后,对微博内容进行分类,找到离关键词最近的那个类,认为这个类中的微博内容表达的是同一意思,并作为数据分析的主类,然后找出类中符合意见领袖标准的微博领袖逐一进行影响力评估,分析出各意见领袖的影响力指标,然后进入趋势分析预警模块,根据微博的走势代入趋势分析算法进行分析,得出结果将数据上传到管理平台,管理平台对数据进行处理将结果输出。

3.2数据分析系统设计流程

数据分析系统获得关键词或核心微博后,从数据库中获取微博相关数据,将微博内容与微博ID挂钩,用中文分词系统将微博内容进行分词,然后在数据库中新建一表项,用于存储分词后的文本内容,继续以微博ID为区分,将分词后的文本进行迭代聚类,选出关键词或核心微博所在类为相关微博类,删除数据库中其他无关微博,进而筛选出符合微博意见领袖定义的用户,进入微博意见领袖影响力评估算法,分析出每个意见领袖的重要程度。以小时为单位,计算单位时间内的微博内容传播广度,分析预测出消息未来走势,进而将意见领袖重要性在前10名的用户数据反馈数据库,将用户按时间顺序进行排序存储到数据库交给管理平台进行结果反馈,这就是整个数据分析系统的主要流程。

四、微博舆情管理平台的实现

4.1样本选取与数据来源

网络爬虫的主要功能是搜集Internet中的各种信息。它利用网页中的超文本链接(Hyperlink)来访问网页,从一个事先制订好的URL列表开始,这个列表中的URL一般是从过去的访问记录里提取出来的,通常是一些比较流行的站点和新闻网页,利用HTTP等标准协议,通过URL从一个页面爬行到另一个页面,直到没有满足条件的新的URL产生为止。

4.2微博数据转化

向量空间模型,其主要思想是以向量空间中的向量运算来处理文本内容,并且使用空间上的相似性来描述语义的相似性。此时,就可以通过计算向量间的相似性来度量文档间的相

7

似性。

向量空间模型主要涉及以下两方面的工作: 1)构建向量表示文档、查询中的词项 2)度量任意文档向量和查询向量的相似性

4.3微博文本聚类

文本聚类就是从很多文档中把一些内容相似的文档聚为一类。下面所介绍的文本聚类算法是在空间向量化模型的基础上实现的。

文本聚类算法有划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。本系统使用划分法进行文本聚类。

4.4微博意见领袖重要性评估

从前文中可以知道,微博意见领袖在微博消息传播中的重要性,而意见领袖本身也存在着影响力不同的问题,所以要对意见领袖的重要性进行评估。

4.5微博舆情预警模块

4.5.1微博舆情预警

微博舆情预警,就是发现对微博舆情出现、发展和消亡具有重要影响的因素,并连续不间断地动态监测、度量、及采集它们的信息,根据预警体系内容,运用综合分析技术,对当前微博舆情做出评价分析并预测其发展趋势,及时做出等级预报的活动。

网络舆情预警等级的设定在综合考虑国际惯例、我国相关机构管理规定及微博舆情发展趋势的前提下,微博舆情的预警等级被划分为:

轻警情(Ⅳ级,非常态)、中度警情(Ⅲ级,警示级)、重警情(Ⅱ级,危险级)和特重警情(I级,极度危险级)四个等级,并依次采用蓝色、黄色、橙色和红色来加以表示。

蓝色级(IV级):出现舆情。微博用户对该舆情关注度低,传播速度慢,舆情影响局限在较小范围内,没有成为当日热点的可能;

黄色级(Ⅲ级):出现舆情。微博用户对该舆情关注度较高,传播速度中等,舆情影响局限在一定范围内,有一定可能成为当日热点;

橙色级(Ⅱ级):出现舆情。微博用户对该舆情关注度高,传播速度快,影响扩散到了很大范围,舆情有可能成为多日热点;

8

红色级(I级):出现舆情。微博用户对该舆情关注度极高,传播速度非常快,影响扩大到了整个社会,舆情必定成为热点并且持续一段时间。 4.5.2趋势分析模块

对曾经成为过热点的微博消息的传播特点进行整理后,得出两种热点传播模型,一种是传统媒体在微博建立的用户的传播方式,一种是微博达人的消息传播模式。

4.6趋势分析结果比较

利用趋势分析模块对微博消息进行分析,对分析结果与最终消息走势进行对比。根据与真实走向的对比,可以发现在微博达人模式中,趋势分析预警成为热点的结果的准确率在80%左右,即使没有成为当日热点也是关注比较靠前的话题。而媒体模式中的准确率就比较差强人意了,只有60%左右,根据实验结果发现媒体本身拥有众多粉丝数,所以发表的消息虽然成为热点的可能性非常大,但也总有40%的新闻只是新闻,传播面广而没有成为热点,所以对媒体模式的更准确预警分析有待改进。初步设想对媒体认证的意见领袖传播的微博消息加上一个转发率的对比,但尚未从已知数据中发现热点与转发率的明显关系。

五、结束语

随着网络在全球范围内的飞速发展,网络已经逐渐发展成反映社会舆情的主要载体,微博舆情也成了网络舆情的重要组成部分。微博舆情管理平台在民意调查,舆情监控和消息获取等方面均有很大价值。

针对目前舆情管理平台的研究现状,本文重在研究其中数据分析系统的内容,有以下贡献:整合中文分词系统与空间向量模型,实现了对微博数据的转化及聚类,给出了微博意见领袖的评估算法及对微博消息的预警等功能。初步实现了微博舆情管理平台的功能。

9

参考文献

[1] 张洋, 何楚杰, 段俊文, 等. 微博舆情热点分析系统设计研究[J]. 信息网络安全, 2012 (9): 60-64

[2] 王艺. 重大突发公共事件的微博舆情监测与引导初探[J]. 贵州民族学院学报: 哲学社会科学版, 2011 (5): 148-151

[3] 杨涛. 智能信息处理技术在互联网舆情分析中的应用[D]. 同济大学, 2008 [4] 张超. 文本倾向性分析在舆情监控系统中的应用研究 [D][D]. 北京: 北京邮电大学, 2008.

[5] 唐晓波, 宋承伟. 基于复杂网络的微博舆情分析[J]. 情报学报, 2012, 31(11): 1153-1162.

[6] 王晶, 朱珂, 汪斌强. 基于信息数据分析的微博研究综述[J]. 计算机应用, 2012, 12(32): 7.

[7] 莫溢, 刘盛华, 刘悦, 等. 一种相关话题微博信息的筛选规则学习算法[J]. 中文信息学报, 2012, 26(5): 1-6.

[8] 谭俊武. 面向网络舆情分析的文本倾向性分类技术的研究与实现 [D][D]. 国防科学技术大学, 2009.

[9] 陆浩. 网络舆情监测研究与原型实现 [D][D]. 北京: 北京邮电大学, 2009. [10] 肖宇, 许炜, 商召玺. 微博用户区域影响力识别算法及分析[J]. 计算机科学, 2012, 39(9): 38-42.

[11] 杨春霞, 胡丹婷, 胡森. 微博病毒传播模型研究[J]. Computer Engineering, 2012, 38(15).

[12] 李雯静, 许鑫, 陈正权. 网络舆情指标体系设计与分析[J]. 情报科学, 2009, 27(7): 986-991.

[13] 滕达. 基于趋势分析的网络舆情监控系统 (TANCMS) 的研究与实现[D]. 国防科学技术大学, 2008.

10

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrd.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务