计算机研究与发展
Journal of Computer Research and Development D OI:10. 7544/issnl000-1239. 2017. 20160434
54(11) : 2586-2599, 2017
基于引力学的在线社交网络空间谣言传播分析模型
谭振华时迎成石楠翔杨广明王兴伟
(东北大学软件学院沈阳110819)
(tanzh@mail. neu. edu. cn)
Rumor Propagation Analysis Model Inspired by Gravity Theory for Online Social Networks
Tan Zhenhua,S h i Yingcheng,S h i Nanxiang,Yang Guangming,and Wang Xingwei
(College o f Softw are , Northeastern University , Shenyang110819)
Abstract The i n f l u e n c e o f rumor pr op ag at io n i n o n l i n e s o c i a l networks(O S N)c o u l d r
e s u l t i n g r e a t damage t o s o c i a l l i f e,and i t h a s been a h o t t o p i c t o d i s c o v e r rumor pr op ag at io n p a t t e r n.T r a d i t i o n a l
E p i d e m i c-l i k e rumor pr op ag at io n models based on SIR,a r e g e n e r a l l y c o a r s e-g r a i n e d f o r O S N but do
n o t f u l l y c o n s i d e r t h e f e a t u r e s o f O S N,such a s p e r s o n a l i z a t i o n dimensions o f us er s’b e h a v i o r and
i n f o r m a t i o n a t t r i b u t e s.I n s p i r e d by g r a v i t y theory,t h i s pa pe r propos es a n o v e l rumor p r op ag at io n
a n a l y s i s model named g r a v i t y-i n s p i r e d rumor pr op ag at io n model (GRPModel),and t r i e s t o f i n d a new
p a t t e r n o f rumor pr op ag at io n from t h e p e r s p e c t i v e s both o f us er s5p r o p e r t i e s and
I n GRPModel,u s e r i n f l u e n c e and rumor i n f l u e n c e a r e modeled mathema tic al ly by u s e r r e l a t i o n s and
i n f o r m a t i o n a t t r i b u t e s,and f u l l y c o n s i d e r t h e i r p e r s o n a l i z e d f e a t u r e s.W e c o l l e c t ex pe ri me nt al r e a l
d a t a from S i n a Weibo,which i s a famous O S N i n China,and i n v
e s t i g a t e
f e a t u r e s o f u s e r s and r e a l
rumors.Experiments prove t h e e f f e c t i v e n e s s and e f f i c i e n c y.
Key words rumor pr op ag at io n model;mi cr o-bl og gi ng a n a l y s i s;o n l i n e s o c i a l network(O S N);
i n f o r m a t i o n d i f f u s i o n;g r a v i t y th e o r y
摘要社交网络空间的谣言传播行为具有极大的危害性,探索谣言传播规律与分析模型成为当前研究的热点之一.传统谣言传播分析模型大都基于S I R等传染病传播模型,能对在线社交网络空间的谣言传播过程进行粗粒度刻画,但并未充分考虑社交网络本身特征.鉴于此,结合引力学思想,提出了 一种新的在线社交网络空间谣言传播分析模型GRPModel.该模型借鉴引力学思想,从用户和谣言信息2个角 度出发,
探索谣言在用户间的传播规律.以用户为核心,基于用户间的关系、信息在用户间的传播关系、谣言接触率、转发率等对用户影响力、谣言影响力进行建模,对谣言信息的传播进行量化,并充分考虑用户的个性化特征,构建相应的建模与分析函数.最后利用新浪微博真实社交网络空间信息,对
G RP Mo de l进行分析验证,验证结果证明了所做模型的正确性和有效性.
收稿日期:2016-06-16 ;修回日期:2016-12-09
基金项目:国家自然科学基金青年科学基金项目(61402097);国家杰出青年科学基金项目(61225012,71325002);中央高校基本科研业务费专项资金项目(N151708005,N151604001)
T h is w o r k w a s s u p p o rte d b y th e N a tio n a l N a tu r a l S cience F o u n d a tio n o f C h in a f o r Y o u n g S c ie n tis ts(61402097), th e N a tio n a l
S cience F o u n d a tio n f o r D is tin g u is h e d Y o u n g S c h o la rs( 61225012, 71325002) , a n d th e F u n d a m e n ta l R e s e a rc h F u n d s f o r th e
C e n tr a l U n iv e r s itie s(N151708005, N151604001).
谭振华等:基于引力学的在线社交网络空间谣言传播分析模型2587
关键词谣言传播模型;微博分析;在线社交网络;信息扩散;引力学 中图法分类号TP393
随着互联网的快速发展,在线社交网络(o n l i n e
socialnetwork ,O S N )已深人到人们生产生活的方
方面面.然而所滋生的一系列谣言正在侵蚀着人们 的日常生活,冲击着网络与社会的正常秩序.相比日 常社会中的谣言,网络空间中的谣言传播速度更快、 波及范围更广、不可控因素更多,所以研究社交网络 空间中的谣言行为传播规律,对控制谣言传播具有 积极意义.
随着 O S N  平台(如 T w i t t e r 、Facebook 、Li nk ed In 、 新浪微博)的快速发展,其开放性催生了网络空间的 谣言传播.在线社交网络具有开放性特点,注册用户 可以随时发表或转发微博信息.微博文章简短,便于 快速阅读,迎合了移动互联时代人们的阅读认知方 式.谣言传播者利用在线社交网络的以上特点,以社 会问题等具有吸引力的信息为出发点,杜撰或篡改 事实传播微博谣言,有的甚至通过专业网络推手进 行策划和发布,所以对社交网络空间谣言传播规律 的探索成为了研究热点.
针对在线社交网络空间的谣言传播特点,很多 研究者基于传染病传播模型[18]展开了对网络谣言 传播建模的研究,这些模型大都从易感、免疫、恢复 3个维度刻画谣言传播的过程,大都是基于经典 SIR (s u s c e p t i b l e  i n f e c t e d  recove re d )模型进行改进, 在一定程度上可以刻画社交网络空间的谣言
传播规 律,但在具体的社交网络中却遇到一定瓶颈.于是很 多研究者引人其他自然科学领域相关模型展开了对 谣言以及舆论传播规律的探索,如势能模型、遗传学 模型、羊效应、弹性碰撞模型等[912].在我国,随着 新浪微博的快速发展,国内很多学者针对新浪微博 信息传播扩散的特点,通过数据挖掘、概率传播、预 测分析等方法对新浪微博进行了系列研究'318].然 而,影响谣言传播的因素众多,在具体网络空间的分 析应用中,传统模型仍需要在3个方面加强:
1) 社交网络空间影响谣言传播的因素有很多, 但传统模型没有谣言个性化特征参数量化机制,都 按照一个标准处理谣言,忽略了谣言的个性化参数;
2)
社交网络中用户对谣言的接触率是随着时 间推进而递减,并且在社交网络中不是所有的用户 都是易感节点,只有接触到谣言的用户才有可能感 染谣言,使之成为传播节点;
3) 社交网络用户的个性化信息传播行为是谣
言在网络空间中传播的动力因素,所有用户不能够 同等对待.
针对这3点不足,本文以真实的新浪微博谣言 传播数据为基础,通过量化谣言特征以及用户特征, 对谣言的传播进行建模,基于此提出了基于引力学 的谣言传播模型(g r a v i t y -i n s p i r e d  rumor  p r o
p a g a t i o n
model ,GRPModel ),主要创新之处在于:
1) 从谣言和节点2方面进行传播参数建模,
谣言的影响力、用户的影响力、用户之间的关系以及 用户与谣言之间的关系进行量化,细粒度刻画谣言 传播的属性;
2) 对用户与谣言的接触率进行函数建模,勾
出用户接触率递减曲线,从传播过程角度分析谣言
的传播%
3)
对用户的行为进行分析与建模,充分考虑
个用户的个性化对谣言传播的影响.
1相关研究
在线社交网络已经成为人们日常生活的一部
分,社交网络分析也成了近年来研究的热点之一.近 年来网络谣言层出不穷,其带来的影响也愈发严重, 针对此现象广大学者开始对网络空间谣言的传播规 律进行细致的建模研究.
大多现有的模型是基于传染病模型展开理论与 实验分析的.文献[1 ]提出了一个基于B B V (b a r r a t
barthelemy  ve sp ig na ni )网络谣言传播模型,基于有
权重的社交网络模型展开,考虑
B B V
网络遗忘机
制,认为随着遗忘率的增加,谣言的影响力逐渐降 低,并得出了谣言在加权网络中的传播速度比其他 网络慢,而且在B B V 网络中谣言传播存在阈值,与 传播机制无关.文献[2]扩展了经典的SIR 模型,在
SIR
中 加 到 的 接联系 并
通过节点的遗忘和记忆机制增加了休眠节点这一状
态.文献[3]则在S IR 模型的基础上,将感染节点状 态分为积极感染和消极感染,并扩展S I R 模型为 S P N R
( s u s c e p t i b l e  p o s i t i v e -i n f e c t e d  n e g a t i v e -
i n f e c t e d  removed )模型,在S P N R 模型中获得了谣
言的爆发阈值,在此基础上提出了一种舆论引导的
谣言控制策略.文献[)]提出了 8状态的谣言传播模 型.除此之外,还有很多学者对S I R 模型进行了不 同 度的
, 如 献[5-8]&
2588计算机研究与发展2017, 54(11)
很多学者将谣言传播与其他领域模型相结合,构建了一系列有效的谣言传播模型.文献[9]提出了 基于势能的谣言传播模型,该模型对信息的重要性、个人的辨识力以及信息的可信度进行了度量,但是 该模型
只是通过经验意识判定2个节点的信任度和 它们之间的距离成反比,而没有对其信任度进行精确的建模度量.文献[10]提出了社交网络中基于遗传学的谣言扩散模型,把一个带有多条谣言的个体看作一个包含一系列基因的染体,指定了染体间的交互规则,以此来对个体间谣言的交互进行建模.文献[11]研究了公众舆论传播中羊行为的演化过程,运用羊行为的演化模型来分析公众网络中的舆论传播,并根据贝叶斯规则来分析这一过程. 文献[12]借鉴弹性碰撞过程中的能量传输模型提出 了新的谣言扩散模型,综合考虑了节点及谣言的历 史行为,对O S N中的谣言传播过程进行了量化.
除此之外,很多学者对新浪微博传播方式、用户 行为习惯开展了研究.文献[13]对新浪微博的信息 传播进行分析与预测,挖掘了多种用户以及微博特征并对其做了详细的分析,以基于用户属性、社交关 系和微博内容3类综合特征为基础对用户的转发行 为进行预测.文献[14]以真实新浪微博谣言为基础,对采集到的新浪谣言微博数据进行了不同角度的分 析统计,研究了谣言的影响力及其产生与消亡的特点,对新浪微博谣言进行了比较全面的定量分析研究,最后提出了一套综合机器智能和体智能的自 动辟谣框架.文献[15]基于微博平台提出了基于把关人行为的微博虚假信息及早检测方法,利用模型 状态持续时间概率为G a m m a分布的隐半马尔可夫 模型来刻画信息转发者和评论者对流行的真实信息 的把关行为,对微博用户节点的行为进行了详细的分析与建模.文献[16]在微博平台上提出了基于PageRank和用户行为分析的微博用户影响力算法,对微博用户的影响力进行了详细的量化.文献[17]对新浪微博的用户行为进行了分析,例如发表微博的驱动力等.文献[18]对新浪微博用户从用户的信传播能 的角度 分,分
通用户、桥梁用户和核心用户.文献[19]中作者用数 学的方法来描述和预测用户行为,并引进羊效应、曝光效果、好奇心等,提出一种不对称的用户兴趣.
独立级联(independ ent cascade,1C)模型'。—22]作为信息扩散模型的一种,在信息扩散乃至谣言扩散领域应用十分广泛.在1C模型中,信息的传播是这样定义的,每个初始激活节点会产生自己独立的扩散级联,级联之间是相互独立,互不干扰的.例如!在网络拓扑中,初始节点都是休眠节点,且每个节点 被激活的概率分别为^ ( •),假设M作为起始节点,在时刻Z节点M会以一定的概率^(M,®)去激活它 的每一个粉丝节点如果在时刻;:,粉丝节点W的多个上游节点同时要激活它,那么这些上游节点会随机排队去尝试激活,所有的激活尝试都在时刻Z 内完成.无论上游节点是否成功激活粉丝节点®,在 随后的任意时间都不会再去尝试激活粉丝节点®,如果粉丝节点®在时刻Z被激活,那么该节点会在时刻Z+1去激活它的粉丝节点,该进程直到不再有 激活行为发生而终止,这整个的信息扩散过程就称为#C模型.
本文所提模型是对1C模型的扩展,在上游节点 去激活下游粉丝节点之前加人了接触率这一概念,只有接触到上游节点谣言微博的粉丝用户才有机会 被激活,并且接触率是个动态的数值,每一时刻下游 粉丝节点对上游节点所原创、转发谣言微博的接触率都不同.
综上,本文是将谣言传播与物理学理论相结合,其中更侧重于量化谣言的性质与用户节点的性质,并对用户和谣言的关系进行详细的量化与建模,充 分分析用户节点的网络行为,在各特征值量化的基础上进
行谣言传播模型的构建,从而探寻新浪微博谣言的传播规律以及用户节点的转发规律,为今后 的微博谣言的控制提供一些新的思路.
2从万有引力到GRPModel
本节首先介绍万有引力,在此启发下结合在线 社交网络谣言传播规律提出GRPModel.
2. 1 G R P M o de l思想来源
万有引力定律表明,任意2个质点通过连心线 方向上的力相互吸弓I.G R P M o d e l的思想来源于万有引力定律在人造卫星中的应用.人造卫星从发射到人轨过程中,当速度达到第一宇宙速度时,人造卫 星就会摆脱地球的引力,围绕地球做勻速圆周运动.若发射速度大于等于第二宇宙速度,则人造卫星就 会摆脱地球吸引力的朿缚,从而摆脱地球飞向太阳系,成为绕太阳运行的人造卫星.简单地说,人造卫 星摆脱地球引力的方式有2种!)在发射阶段,就以 大于等于第一宇宙速度发射;2)卫星在轨道上运行时,人造卫星二次点火做正功,使其速度足以摆脱地 球的 .
谭振华等:基于引力学的在线社交网络空间谣言传播分析模型2589本文将万有引力模型与谣言传播模型相结合,
以万有引力模型中的行星表示谣言传播模型中的用 户节点,以人造卫星表示谣言传播模型中的谣言以人
造卫星围绕行星运转的情况表示谣言在用户节点之间的传播转发关系,从而面向在线社交网络提出新的谣言传播分析模型GRPModel.
2.2基于万有引力的谣言传播扩散模型
O S N是有向图Gr«M=〈N o心,£^以>,其中 N o心代表社交网络中的用户节点集,代表节 点间有向关系集[23].表示用户M的粉丝节点集(后继#其粉丝数为|N°<M)| ;N m(M)表示用户M 的关注节点集(前驱),其关注节点数为I N m(w)|.
文献[2-8]中阐述了在线社交网络中谣言传播的动态性与传统流行性病毒传播的动态性不同,在 线社交网络中,用户节点任意时刻面对谣言所处的状态可能为以下3种!)沉默状态,即用户节点没有 接触到谣言时的状态,由于种种原因可能会使用户 节点遗漏掉部分上游节点所传播的谣言%)接触状 态,即用户节点接触到谣言的状态,接触状态下的用 户节点又根据自己的兴趣爱好或者行为习惯选择转 发该谣言或不转发该谣言这2种子状态;3)免疫状 态,即用户节点传播完谣言时的状态和用户节点接触了谣言但没有传播谣言的状态.该现象和万有引 力模型中行星所处的状态非常相像,在万有引力模 型中,行星也有3个可能的状态,没有捕获到人造卫 星、捕获到人造卫星并且人造卫星在其轨道上做勻速圆周运动、捕获到人造卫星但人造卫星二次点火脱离该行星的万有引力.因此,在G R P M o d e l中,用 户节点的状态集可以定义为〈沉默状态,接触状态,免疫状态〉,其中接触状态又可以分为〈接触不转发 状态,接触转发状态〉这2个子状态.
定义谣言的原创用户为m,其粉丝节点为在时刻z选取节点m为谣言扩散的种子节点,将m发 表谣言看作是谣言rwTOcr在节点m上发射,这时的 rMTOor会脱离m的引力,奔向其粉丝节点w的引力 场,此时表示谣言产生.在时刻Z+1,谣言以概率W •)进人节点w的引力场,其中f( •)则是根据节 点w的活跃度、网络行为习惯量化的,并且在时刻Z+1,粉丝节点w面对谣言会有2个选择!)不转发 此条谣言%)选择转发此条谣言.
重复以上步骤,即为G R P M o d e l的扩散过程.
G R P M o d e l中,将谣言影响力充当rMTOor围绕m运 动的轨道半径,将用户节点m影响力的加权值充当球体M上的重力加速度,更多的关于这些参数的描述和数学建模,将在第3节详细阐述.3 GRPModel的数学形式化
3.1谣言传播建模
3. 1.1用户的综合影响力建模
节点的性质包括节点的认证声誉度、活跃度、节 点粉丝数等,本节将对节点的性质进行定义建模.
定义1.认证声誉度.C^(m)#[0,1]表示用户 m的认证声誉度.
新浪微博用户的认证类型有很多类型(主流有 11种),认证作为用户声誉的基本保证形式.本文将 新浪微博的认证类型按认证的难易程度分为{9,中,低-大类.‘高’类对应{政府,团体(机构)}等认 证%中’类对应{名人,企业,媒体,校园,网站,应用}等认证%低’类对应{微女郎,初级达人,中高级达 人}等认证.{ch l g h,cm i d d=,c bw}对应{9,中,低-类
认证的声誉值,cn u l l表示无认证用户的声誉值,且 C h i g h+Cm i d d=+c〇w]C n u l l=1,由谣言分析员按数据集实际情况分析判断具体值.根据M的认证类型对 应的{c h l g h,Cm i d d=,Cow,Cn u l l}值确定M的认证声誉度C R('m).
定义2.发博量.N mto S T M)表示用户M在O S N 中的发博总量,N m™T+(m)表示用户M平均每小时 的发博量.令Ag^M表示用户M的微博龄(单位是h),则:
NMm;ls t (M)
A ge M
(1 )其中,N M m S f(M)及A g eii信息可以直接从节点m的属性中获取.
定义3.影响力覆盖指数.Q(m)表示用户m的影响力覆盖指数,用M的粉丝数|N〇4t(M)I的常用对数来表示,即:
Q(M)=lg|N o u t(M)I]1. (2)定义4.微博产出量影响力.JF(M)表示用户M的微博产出量影响力.
微博信息的产出量可以作为衡量用户影响力的 指标之一,为兼顾发博的动态性,本文以平均每小时 发博量N mt C+(M)为M的微博产出量影响力基数,用Q(M)作为覆盖指数,则:
I F(M')=(N M m;〇t(M'))Q M.(3)
定义5.综合影响力.E…表示用户M的综合影响 力,由I F(),I N M(M)I,CR(M)组成,即:
E m=IF(m)X |N o u,(m)|X C R(m).(4)
可以看出,发博数越多,粉丝数越多,认证声誉 度越高,则用户M的综合影响力E m
越高.
2590计算机研究与发展2017, 54(11)
3. 1. 2用户的谣h 接触率建模
谣言的接触率
否传播谣言有重要影
响.本
的活
及上游
谣言接触的干扰性两方面对谣言接触率 .
定义6.发博概率6(7)表示2)h 中任意时刻
(以h 为单位) 基准的发博概率.
能够比较准确地 的网络行为习
惯,本 新浪微博官方提供的微博
日常发博
数据来
在1d 之中的任意时刻
发博概率分布,图1是2015年度新浪微博
发展[24]所出的2015年度 日常发博
1习
惯.不难看出,在凌晨100—6:00时段,多数微博用
处 默状态,这一时间段微博平台产出的微博
量相 ;在9 :00—23:00时段,多数微博用户
处活状.
在任意
的微博产出量,
活跃程度.通过U
)
及发博概率e (7)来计算,即:
N u m ;ost  (u
,") = N
u m p J N  (u
) _ e ("), (5)
其中,"#[00:00,23:00],表示
单位的任意.本文所提
中的
"表示,其本质是1 h 内的时间段,以整 计算依据.定义8•微博信息更新屏数.表示用 户
u
在时刻"所获取的微博
更新屏数6
u
每屏所展示的微博数量为N u m p a g =(u )条,则:
$
N u m p £o s t(v t
,")
4%$u ,"@
V ieh
u
) •
6
定义n 接触率.c p r ^(u ,2)表示用户u 对其
关注节点2所发布的谣言rumor 在其产生^时间 内的接触率.定义3(u ,^)f  u
因上游节点
博导致
而产生接触衰减率.则:
C P
^m o r  (u ,v
)= N
u m
; o s t  (u ")
X
#(u
,s ), (7)
t s
d (u ,)=
e —$K$p a g e (u ,"\ (8)
其中$为衰减速度$越大,衰减越快.可以看出,活 度越高,衰减率 ,谣言接触率越高.
3.1.3谣言影响力建模
谣言影响 谣言信息本身被用户接受的能
力.本
谣言所属
的程度、信息本
网络谣言的危害征
2个角度对谣言影响
.
定义10.欢迎程度.L (rumrr )表示谣言所属信
的 度.
1)
分类算法[5]对含有^ 、
本微博的数据 本分类.足=(
A
,x 2,…)表
示每
m
/o (〇的分词形成的向量.令
C *s
= {|y  # [1,m
]}表示微博的m 个类别集
. 则 :
P
(Cl a s \//
o
()) = A (
*S 〇#S
. (9)
A  y X i )
选择最大概率对应的分 博信息//〇()
所属的类别#*.(//〇(0)•
2)
将#类微博信息中的转发数、评论数、
点赞数 3个主成分
,F 2,P 3令V A 只
(P1),\^只(F 2),\^只(P 3 )为对应因子在数据集中
的方差,令
F S :,F S 2,F S 3
分别
应的
^得
分,A C 1,A C 2,A C 3分别
应的主成分得分,则
P C 1 = F S 1 X  槡V A R  (F
O
,A C 2 = F S 2 X  槡V A R  (F 2),
P C
3
=
F S
3X 槡V A R  (F3).根据主成分分析方法最
终得到类别的综合得分
s c o $
(G ),其中Sm a x S
高得分,Sm i n
分.
F i g . 1 U s e r s ’ A a i l y  h a b i t 。8 p u b l i s l i i n g  m i c r o -b l o g g i n g
图1微博用户日常发博行为习惯
以图1所示的平均值为基准,确定每个时刻用
户的发博概率,结果如表1所示:
Table 1 Probability Distribution of Publishing Micro-Blogging
表1微博用户日常发博概率分布
T im e !h T im e !h T im e !h 00:00  1. 01508:000. 97916:00  1. 21101:000. 56109:00  1. 09517:
00  1.22002:000. 44510:00  1. 17518:00  1. 22803:000. 32111:00  1. 22019:00  1. 30004:000. 27612:00  1. 23720:00  1. 353
05:000. 29413:00  1. 22021:00  1. 43306:000. 45914:00  1. 14822:00  1. 50407:00
0. 712
15:00
1. 187
23:00
1.406
定义L .微博产出量.N u m £p o s t (u ,")估计用户
g
u -5b g o
q
§s w ).a n s 3l \I
j o
U O P J n q -B S I Q
^
Q