【论文】02.18

题目
微博信息的可信度评价方法研究与
实现

一、论文内容及具体要求

1）文献调研，查阅和阅读本领域相关学术论文和参考资料，调研短文本分析方法的相关背

景知识和相关方法，熟悉微博等短文本分析和评估技术相关理论，掌握 Web 应用软件设计与

开发的基本原理、技术和方法，学习使用 Java/JSP 等开发技术；

2）分析微博上的短文本信息特征，进行相关概念的定义和可信度自动评估方法的设计，进

行算法分析；编码实现可信度自动评估算法；采集实验数据，进行实验和结果分析；
3）设计和实现短文本自动评估工具。

二、设计（论文）进度分配

1-2 周：进行文献阅读，阅读相关论文和参考资料，调研相关研究背景知识，进行开题工作；

掌握 Web 应用软件设计与开发的基本原理、技术和方法，学习使用 Java/JSP 等开发技术；

3-4 周：分析微博上的短文本信息特征，进行相关概念的定义和可信度自动评估方法的设计；

5-6 周：进行可信度评价算法的实现与分析,采集实验数据，进行实验和结果分析；

7-8 周：进行短文本自动评估工具的设计与实现；

9-10 周：调试和完善系统代码与算法；

11-12 周：进行工作总结，并撰写毕业论文；

13-14 周：修改论文，进行毕业答辩。

摘要
我们分析了在微博中传播的新闻的信息可信度， Twitter 是一种流行的微博

服务器，以前的调查结果显示：在 Twitter 中发布的大多数信息是真实的，但是
此服务器也经常无意识的被用来传播虚假和错误的信息。
本文着重研究了一种实现自动评估微博可信度的方法。具体来说，我们分析
了微博博文“趋势”相关的主题，依据提取出的特征将他们归类为可信或不可
信，我们使用的特征来源于用户发布和回复的行为，也来源于微博文本和引用
的外部来源。
我们通过使用大量人们对当前发布的微博样本的可信度评价来评估我们的
方法。结果表明，通过信息传播方式的些许差别，能够自动的将信息分类为可信
或不可信，此方法的准确度在 70%到 80%之间。

关键字：社会媒体分析；社会媒体可信度；微博

1 介绍

Twitter 是一个在全世界有着千万用户的微博服务器，它允许用户发布和转

发长度不超过 140 个字符的信息，即博文。微博被各个行业的用户所使用，使用

者中有 46%的活跃用户，博文可以通过发送 e-mail、发送短信消息和直接通过智
能手机使用一系列基于网络的服务来发布。因此，有利于信息实时地传播到大量
用户当中。这为爆炸性新闻能够直接从新闻来源或事件发生地被报道营造了一个
理想的环境。
如在紧急情况下[32]，部分用户在微博中发布的信息或者提供当事人的观察
结果或者是从外部资源带来相关信息。特别是来自官方和来源信誉良好的信息被
认为是有价值的并得到积极响应和传播。在这样一个信息平台中，通过其他用户
综合和详尽补充，便产生了一个对信息不断进行解释的过程。
这个过程可以使得信息的收集、筛选和传播非常迅速，但是它还不能区分出
真实的信息和谣言。例如，当 2010 年智利海啸发生后，由于官方所提供信息的
稀缺，微博上一些谣言的发布和转发夸大描述着当地居民生活的混乱和内心的
不安全感。然而，我们也发现了一个规律，即被证实是虚假的信息比真实的信息
在传播过程中会产生更多的质疑。这表明了社会网络在某种程度上倾向于支持有
效的信息超过虚假的信息。
（1）社会媒体的可信度

本课题所关注的焦点是通过社会媒体网络传播的信息，20 多年前，Fogg 与

Tseng 将可信度描述为多维度组成的感知特性，在研究过程中可信的信息被认为

是能够提供合理理由使其被相信的信息。首先，如果用户认为一系列特定的消息
符合一个有新闻价值的事件，那么要就他对其进行陈述，接下来，针对这些被
认为与有新闻价值的事件相关的消息来询问另一组用户，让他们对这些消息的
真实和虚假做出判断和陈述。
确定是否可以对微博上发布的内容实现可信度等级的自动评估是本课题的
主要研究目的。研究中最基本的假设是：当信息存在可利用的标记时，这个社会
媒体环境下的用户便能够对信息的可信度进行评估。以此为前提，定义社会媒体
公信力属于信息可信度研究方向，可以被评价但是只能够使用在这个社会媒体
平台上的可利用信息。
（2）研究目标和论文结构
本阶段研究的方法基于监督学习，第一步建立一个数据集来研究微博上的
可信度。首先通过研究一些突发事件，并从中提取一组相关的讨论热点，然后通
过一组评估人员对每一个热点进行标记，标记成有新闻价值的信息、事件或者非
正式谈话。建立好数据集后，由另一组评判人员对前一类的每一条记录在可信度
等级上进行评估，这部分内容将在第三节中详细介绍。
接下来，对每一个被标记的主题提取相关特征并利用这些特征建立一个分
类器，使得分类器能够自动识别出有新闻价值的信息，然后可以自动评价其可
信度等级。这部分内容将在第四节中做详细的描述。在第五节中介绍了本课题的
结论和今后的工作方向。
在下一节中，将对本课题研究的前期工作进行简要介绍。

2 相关工作
由于目前越来越多的人参与到信息可信度的研究中来，其相关文献比较广
泛，因此在本节中我们将着重介绍与本课题关联最密切的研究观点。
（1）在传统媒体和博客中网络新闻的可信度
一般情况下，用户对于网络新闻的可信性持积极态度，与其它媒体一样，
人们将互联网作为一个可信赖的新闻来源。在某种程度上互联网对于年龄在 30

岁以下的人们来说是最重要的新闻来源，此结论出自 2008 年的一项调查研究

[23]
，调查结果排名第二的是电视媒体。

在 2005 年的一份调查结果中显示，众多能够在线阅读新闻的网站中，博客

与传统新闻网站相比具有较低的信赖程度，即便在年轻人群中[34]。然而，对于
有政治爱好的用户，他们的博客被认为有较高的可信度，特别是当他们有很对

关注者时[14]。

（2）将微博作为一种新闻媒体
虽然在微博上有大量的信息用来交流、聊天，但是人们也同样使用它来分享
相关事件的讯息和报导新闻[13,21,22]。事实上，大部分“热点话题”的关键字的出

现频率会在传播过程中急剧上升，这样的新闻被认为是“头条新闻”[16]。
通过微博用户对传统媒体报导新闻的回应可以将事实挖掘出来，例如，疫
情跟踪、检测新闻事件真实性、定位地理位置和发现有争议的话题。在紧急情况下，
微博也已经得到了广泛的使用，如森林火灾、飓风、洪水和地震。记者们称赞将
这种即时服务在许多情况下比大多数主流媒体报导突发新闻更迅速。不久前
Mathioudakis 和 Koudas 描述了一个对微博信息流执行趋势检测的在线监测系统

[18]
，本文假设上述趋势检测系统以经存在并且以此为基础集中解决如何标记趋
势或事件。
（3）微博中新闻的可信度
在一个近期研究中显示，向用户提供网络信息的可信度值是非常有益和有
价值的[30]。在缺乏这种外部信息的情况下，人们对网络信息可信度的感知被与风
格相关的属性强烈影响，如与内容没有直接的关联的视觉上的设计。用户同样
可能因作者的性别而改变对一段博文的可信度感知。
在接下来的试验中，对于同一则新闻，使用不同的方式呈现给用户，即将
它放置在传统媒体网站，写成博客以及在微博上发布。实验后发现，与其他方式
相比用户往往不信任在微博上呈现的新闻。这种不信任并不是完全没有依据的，
目前主要的搜索引擎已经开始从实时性网站，如博客、微博中获得所搜结果并得
到优先显示，特别是热点话题。这使得一些人想要利用微博来吸引访问者，再向
这些访问者销售商品或服务。它同时增加了精心策划的行为（如散播谣言和误
导）所带来的潜在影响。目前微博已被用作一种政治宣传的工具[20]。

错误的信息也可能被迫被传播。例如，在 2010 年 11 月，印度尼西亚灾害管
理部长顾问的微博账号被黑客入侵，这名黑客随后便利用此账号发布了一条假
的海啸预警消息。在 2011 年 1 月，一条伦敦牛津广场发生枪击的谣言在微博上
迅速传播开。在网络上能够收集到大量类似的材料。
目前，美国印第安大学的研究人员已经开始收集、分析和可视化这些在微博
中传播的“trending topics”。从博文中收集的特征被用于计算一组微博的真实性

分数[26]。那些分数较低的微博更有可能是为了欺骗而发布的。但是在本课题的研

究中，并不是针对故意欺骗的行为进行检测，而是寻找可以被用来自动估计用
户可信度认知的因素。

3 数据的收集
我们专注于对时间敏感的信息，特别是当前的新闻事件。本节将介绍如何
在微博中收集一个与新闻事件相关的信息集合。
3.1 自动探测事件

我们使用在两个月的时间段中被 Twitter Monitor 检测到的微博事件

，Twitter Monitor 是一个在线监测系统，它能够灵敏的检测出在大量信息中概
[18]

率急剧增长的一组关键字。
对于检测到的每一组关键字， Twitter Monitor 都会提供一个基于关键字的
查询语句，查询形式为 A ∧ B ，其中 A 表示一写关键字和标记的合取， B 表示一
些关键字和标记的析取。例如， ∧1 ∧ ∨ ∨
（10月日）（中国国庆节元旦）是指每年 10

月 1 日的中国国庆节。在两天中我们收集了所有满足查询语句窗口集中在每一个
突发高峰的微博，每一个微博子集就是我们所说的一个话题。我们收集了超过
2500 个这样话题，并选取其中一些作为样本，如表 3.1 所示：

表中划分出了两类话题：新闻和谈话，谈话类型可以被检测出来是由于人
们在生活中的普遍习惯造成的。每个主题的微博数量有着很大的不同，其分布如
图 3.1 所示，最终的数据集合保留了其中微博数量不超过 10000 条的话题，大约
占所有话题的 99%。
3.2 检测话题的新闻价值

此处用到了第一个标签，目的是从包含个人观点和聊天的众多案例中区分
出与新闻事件有关的话题。为了完成这项任务，需要从每个话题中抽取 10 个消

息作为样本，再结合 Twitter Monitor 提供的关键字列表，来认证这些消息应大
多被标记为新闻还是聊天，对于每一个话题都会有一个描述性语句，通过这些
描述性语句可以舍弃那些没有适当理由成为新闻的话题，减轻在评价系统的负
担。

如图 3.2 所示，为每个类提供准则和例子。新闻类型被描述为一个事实的陈述
或者一个实际的事件，并且能够使他人对其产生兴趣，而不是和朋友之间的对
话。聊天类型被描述为仅依靠作者的个人观点和看法而形成的信息或者是朋友之

间的交流的信息。
从 Twitter Monitor 收集的结果中随机选择了 383 个话题，对它们进行评估，

首先随机将话题分为 3 组，在 10 天中共进行了 7 次评估，通过分析所有的描述
语句，没有发现应该被舍弃的话题。
在话题标签的确定过程中，如果 7 次评估中至少有 5 次一致的结果，那么
则将其标记为此结果。若话题既不是新闻类型也不是聊天类型，则将其定义为不
确定类型。实验结果显示，被标记为新闻类型的话题所占比例为 29.5% （ 113

例），聊天类型为 34.9%（134 例），因没有达成共识而被标记为不确定类型的

话题所占比例为 35.6%（136 例）。

3.3 可信度的评定

下面将集中研究可信度评定的工作。我们对经 Twitter Monitor 收集到的 2524
个话题使用事件监管分类器进行分类，将会在第四节对此分类器进行详细描述。
经分类被标记为新闻类型的话题总数有 747 例，接下来对这个实例集合中的各

个话题评估其可信度等级。在本次评估过程中，将可信度划分成四个等级：1、肯

定是真的；2、可能的假的；3、肯定是假的；4、不能确定的。并且提供一个简短的

陈述来证明每一个给出的结果，这项工作的一个例子如图 3.3 所示，每一个标

签的确定需要至少 5 个人的赞同。
在进行评估的初期，几乎所有的话题均被标记为“可能是真的”，但是这
个结果在判定信息可信度时是无用的，因此，决定去掉“可能是真的”这一选
项。最终，被评定为“肯定是真的”的话题占 41%（306 例）、“可能是假的”

占 31.8% （ 237 例）、“肯定是假的”占 8.6% （ 65 例）、“不能确定的”占

18.6%（139 例）

4 自动分析可信度
本节将讨论对于给定信息流的特定话题如何自动鉴别其是否具有新闻价值
并自动给每一个有新闻价值的话题分配一个标签。
4.1 社会媒体可信度

假设通过社会媒体传播的信息，其可信度等级能够被自动估计。在社会媒体
平台上，存在着一些有助于评价信息可信度的因素，这些因素包括：
（1）某些主题产生反响以及用户在讨论主题是表达出的感情。例如，当用
户在表达对某话题的观点时带有积极或者消极的情绪；
（2）用户在传播信息时把握程度。例如，当用户在转发信息时，是否对其
提出质疑；
（3）对外部来源的引用。例如，当用户发布消息时的同时是否引用了一个

特定的网页地址（URL），或者用户引用的地址是否是一个受欢迎的地址；

（4）发布消息的用户所具有的的特点。例如，用户在微博平台上拥有关注
者的数量。
因此，提出了一组特征来描述每一个收集到的话题使它们具备各自的特点。
包括一些仅适用于微博平台的特征，但是大多数特征是同样适用于其他环境的。
这些特征如表 4.1 所示。
依据特征的作用范围，定义了四种特征类型：基于消息的特征、基于用户的
特征、基于主题的特征以及基于传播的特征。
（1）基于消息的特征
这类特征考虑的是消息本身的特点，有的独立于微博平台有的依赖微博平
台，独立于平台的特征包括：消息的长度，文本中是否包含感叹号或者问号以
及消息中包含了多少个消极或积极地词语。依赖于平台的特征，如：是否微博中
包含标签，是否是对某消息的回复。
（2）基于用户的特征
此类特征考虑的是发布消息的用户的特点，比如注册年龄、关注者数量、关
注他人的数量、用户之前发布的消息数量。
（3）基于主题的特征
此类特征是从前面两种特征中得到的一个集合。例如：一条消息包含了网络
地址、标签以及消极的情绪，那么这个集合构成了基于主题的特征。
（4）基于传播的特征
此类特征考虑的是与传播树有关的的特点，传播树是在消息转发过程中建
立而成的。它包括的特征：树的深度、话题发起者的数量等。
4.2 自动发现有新闻价值的话题

使用训练获得的监管分类器来决定一组微博信息是否具有新闻价值。在进行
监管训练阶段使用到了 3.2 小节中描述消息是否具有新闻价值时给出的标签。训

练一种能够考虑三种话题类型但在学习过程中对成本敏感的分类器，通过实例
成本对其类型进行预测，即越是与新闻类型相关的话题其成本也越低，在训练
过程中建立一个成本矩阵并假设忽略预测的时间成本，根据两种错误（主动错
误和被动错误）的相对成本确定训练实例的权重，从而生成一颗时间敏感树。
成本矩阵中定义对新闻类型分类错误的权重设为 1.0，对只涉及聊天类型和不确

定类型分类错误的权重设为 0.5。
在训练过程中，对数据集使用了自展策略，使用放回式抽样方法在三种类
型中等概率提取实例，从而得到数据集上的一个随机样本，该样本的大小决定
了输出数据集的大小。然后，将此样本自展至当前当前样本大小的 300%，其它

特征保存不变。试验中还是用了 3 折交叉验证方法来得到更加可靠和稳定的模型

在方法的选择上，通过比较支持向量机（SVM）、决策树、决策规则以及贝

叶斯网路算法的实验效果，最终决定选用 J48 决策树方法，使用此方法得到的

实验结果如表 4.2 所示。由表 4.2 可知，监管分类器的准确率为 89%，Kappa 统计
值表明了分类器预测在很大程度上优于随机预测。分类器对各类型评估结果的详
细信息如表 4.3 所示。

由表 4.3 可知，分类器在新闻类型实例的预测上取得了很好的效果，有着

较高的正确率（ TP）和较低的错误率（ FP）， F1 − Measure 为 0.92 说明了此分
类器对于评估新闻类型时其准确率和召回率得到了很好的平衡。
4.3 评估可信度时的特征分析

在实现自动评估可信度之前，对特征值的分布进行了分析，在 747 个新闻

话题中进行了最优特征的选取，在此过程中使用到了 3.3 小节在评价信息可信
度时给出的标签。定义一个空属性集，在此基础上执行最优特征选择的搜索算法，
通过此方法选取了 15 个特征，如表 4.4 所示。

由表 4.4 能够看出，前四项特征考虑的是用户的特征，比如：已注册微博
多长时间，已发布了多少条微博，在微博平台中拥有的好友和关注者数量。中间
的十项特征是由每个新闻事件的众多微博中提取出的特征，需要注意的是，在
这个集合中基于分析情感的特征是非常有用的。最后一项特征是从因转发而形成

的传播树中获取的。
为了说明这些功能在鉴别可信度时发挥的作用，用盒形图来描述对每一个
特征，用这种方式将话题划分成“可能为真”（标记为 A 类）和“可能为假”
（标记为 B 类），排除“不能确定”的部分，表 4.4 中所有特征的盒形图如图

4.1 所示。

从图4.1中可以看出，一些特征展示了这两类的显著差别，例如：活跃的用
户更趋向于传播真实的信息，一个新注册的用户却有很过关注者同样更倾向于
传播真实的信息。
以情绪为基础的特征，在预测信息可信度时也是非常有效的，一般情况下，
当微博中出现了与情绪有关的词语，那么它更可能是不可信的消息，特别是与
积极情绪相关的词语，而含有消极情绪则截然相反，它使得信息更趋向于是可
信的。当微博中出现了问号或者微笑的符号或者大部分微博中提到同一个用户，
那么它们也同样更趋向于是不可信的消息。如果某个信息传播树的同一级中有很
多转发者的话，那么它更可能是可信的消息。
4.4 自动评价可信度

预测在微博中发布的消息的可信度等级，需要训练一个分类器，为了实现
这样一个分类器，就要将问题集中在检测出“肯定是真的”这类新闻（ A 类），
而不是其它类别，其中包含“不能确定”一类（ B 类）。共有 306 例 A 类和 302
例 B 类，此数据基本达到平衡，利用这个平衡的输出可以评价分类器对可信信
息的可预测性。
从很多学习算法中选取了效果最好的 J48 决策树，在训练和验证过程中使

用了 3 折交叉验证方法，此分类器的概要信息如表 4.5 所示。

由表 4.5 可知，分类器的准确性达到了 86%。Kappa 统计值说明分类器预测

在很大程度上优于随机预测。对每一个分类的评估详情如表 4.6 所示，对于这两

类的预测水平是相近的， F1 − Measure 值较高，这表明了预测准确率和召回率

有着较好的平衡，表 4.6 的最后一行，表示两类结果的加权平均值。
为了确定决策树处于顶端的特征，对所有特征进行了分析，根据基尼分裂
标准寻找对 J48 决策树能够产生较大影响的特征。最终确定的决策树如图 4.2 所

示，图中处于顶端的特征如下:

（1）基于话题的特征：决策树的根部特征为信息中包含一个网络地址，信
息中含有消极情绪、有感叹号以及与这些类似的基于情感特征都出现在距离根比
较近的位置。特别要指出以下两条分类的原则：1、未包含网络地址的信息倾向于

是不可信的新闻；2、包含消极情绪词语的信息倾向于是可信的新闻。

（2）基于用户的特征：这些特征的集合对决策是非常有帮助的，其中，可
信度较低的信息大多起源于发布信息较少的用户。微博平台上好友数量这一特征
距离策树根部也同样很近。
（3）基于传播的特征：传播树（RT tree）的大小对决策也是非常有帮助的，
被多次转发的消息更倾向于是可信的新闻。
以上结论表明，文本所包含的信息对于可信度的评价非常有用。情绪可以反
应用户对于一个话题或者一个事件的观点和看法，这些观点在检测事件可信度
时能够起到重要作用。基于用户的特征能够体现用户的在微博中的声望，被声望
较高的用户发布或转发的消息被认为是可信度较高的，这些用户大多拥有大量
的好友和关注者，这表明微博平台如同社会过滤器一样在运转，不可信的消息
会在传播过程中被人们抛弃。
4.5 基于特征的可信度分析

在本小节中，重点研究了如何通过特征的子集实现自动评价信息可信度饿
工作。首先，根据投特征的子集训练出学习算法。将特征分为如下四个子集：
（1）文字子集
文字子集考虑的是文本中的特性，它包括信息的平均长度，基于情感的特
征，与 URL 地址有关的特征以及包含标签的数量等，共 20 项特征。

（2）网络子集
网络子集考虑的是用户所拥有的社会网络的特性，它包括信息作者的特征，
作者好友数量，作者的关注者数量等，共有 7 项。

（3）传播子集
传播子集考虑的是基于传播的特征的特性，共有包括转发数量、相关信息总
量在内的 6 项。

（4）热门元素子集
热门元素子集考虑的是从微博中统计得到的特性，包括常用的网络地址、散
列标签、被其他用户提到以及作者这四个方面。

分别用以上四个子集训练得到四个 J48 决策树，使用在在前期试验中用到

的 3 折交叉验证策略，分离每个组中的实例。

实验结果如表 4.7 所示，表中黑体字代表相应类别的最好结果。
由此表可以看出，在所有特征中，传播子集与热门元素子集中的特征对于
评价可信度有着更好的效果。仅仅使用基于文本和基于作者的特征不足以判断出
信息的可信度。基于传播的特征对虚假的新闻有很高的灵敏度，这表明图模式能
够很好的对虚假消息进行检测，而可信的信息一般较难被检测出来。热门元素子
集中的特征在判断信息类别时效果最好，这表明，通过这些特征来衡量社会模
式中信息的可信度是非常有效地。
为了说明这些功能在预测信息可信度时依赖关系，推算出了每一组功能对
的散点图，如图 4.3 所示。

从图 4.3 中可以看出，多数功能对具有较低的相关性，这表明两个功能间
基本不具有线性关系。对其中的特殊情况进行了分析，当两个特征都与情感有关，
那么它们是相互依赖的。关于种类的分布，从图中可以看到每一个功能对都表现
出了很好的分离属性，这一点可以用来解释在 4.4 小节中得到的结果。

图 4.3 在预测信息可信度时的功能散点图，图中黑点和灰点分别表示可信和不
可信的消息，每一行代表一个功能，从上到下依次为：注册年龄，微博数量，
关注者数量，好友数量，包含 URL 的信息，情绪得分，积极情绪，消极情绪，
分享的网址，分享的作者，用户提到的微博，有问号的微博，有微笑表情的微
博，有第一人称的微博以及转发树的大小等级，列的顺序为从右到左。

5 结论
网络用户一直以来缺少用于评价信息可信度的线索，对于缺乏经验的用户
来说，更是容易被错误信息所误导。微博正逐步成为一个具有重大影响的信息来
源，特别是在紧急情况和重大事件发生时，提供一种验证网络信息可信度的工
具变得十分重要。
在本文中，阐述了如何从包含谈话类型的话题中自动区分出对于时间敏感
类话题。在众多特征中，具有新闻价值的话题大多具有两个特征，即包含网络地
址和有较深的传播树。文章也阐述了如何实现自动评价社会网络中新闻类话题的
可信度。在众多特征中，真实的新闻大多包含以下特征：被已经发布过大量消息
的用户发布和转发，起源于一个或几个网络用户，有很多条回复。
对于今后的工作，可以在已有基础上使用更大的数据集进行试验，或者更
深入得探寻那些可以引导用户断定某个热点话题可信的因素。在此领域中仍存在
着很多有趣的待解决问题，比如研究在信息中被提到的网页地址的影响或者是

在微博环境中显示的那些因素对信息可信度的影响，如发布者使用的头像等等。

问题：
1、如果有人利用自己的信誉制造谣言将更加容易，如何避免？

2、如何对于刚刚开通的微博（微博数量少、关注者少）进行评估？

3、可信度评价值在何处显示？仅显示于后台的话对浏览者没有帮助，但若

在界面显示，则需要将评价的准确性进一步提高.

4、相关工作：媒体影响的对比中，为什么除报纸外？

5、召回率什么含义？

6、J48 决策树如何定义的？

7、交叉验证是如何做到的？

8、什么是基尼分裂标准？

9、hashtag（散列标签）在文中的含义。

【论文】02.18

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (15)

Similar to 【论文】02.18

Similar to 【论文】02.18 (20)

【论文】02.18