如何练就辨识微博网络水军的火眼金睛?

微博社交成为网络社交的重要方式之一,深远地影响着许多网民的思维与行为,也是网络舆情发展的重要传播平台。网络水军正是趁此机会,利用社交网络造势影响舆情判断和走势。10月底,国家网信办发布新修订的《互联网用户公众账号信息服务管理规定》,重点强调打击虚假信息、虚假流量等违法违规行为,剑指操纵多个平台账号、生成虚假流量数据、制造虚假舆论热点的幕后黑手。新华网等主流媒体积极肯定新规有利于治理网络水军乱象,让网络舆论生态风朗气清。而在强化互联网内容治理的同时,如何通过技术手段加强对网络水军更加精准高效的识别,在大数据互联互通时代也理应受到更多重视。

网络水军用户的四大特征

网络水军被认为是为获得目标收益通过社交媒体传播无意义、虚假、炒作信息的异常主体,包括自然人和社交机器人两种类别,一般通过发布灌水信息并对相关话题进行炒作、引导来产生有目的的作用。网络水军现象已经引起业界的广泛关注。学者、研究机构以及舆情从业者开始对各领域水军进行识别研究。涉及到两个方面,一是网络水军有哪些特点,二是怎样自动识别出水军。本文基于行为模式、发帖内容、用户关系和环境情况四个维度中的微博用户特点表现,总结出辨识与查找水军的特征。

01行为模式

微博用户发表的作品拥有一定的阅读量,网民在浏览结束后会在其微博中留下评论,以便与该用户交流想法、表达自己的观点,有些网民会为其点赞或者转发该条微博来表达对此内容的支持。于是,转发数、评论数、点赞数都是微博构成影响力的基本要点。

将微博中转发数、评论数、点赞数三个因素根据已有研究结果和逻辑分析,可以构成非常重要的特征,现列举如下。

转发微博占比=转发微博数量/总的发微博数量

非空转发比=转发者在转发微博中有评论的数量/总的发微博数量

用户提及率=用户所发微博包含的提及量/该用户的发的微博条数

文本话题标签率=用户微博内容中包含的话题标签总数/数据集里该用户所发微博数的总数

02发帖内容

发帖内容包括两个部分,一个涉及到微博文中语义理解,可能存在诈骗、销售信息的链接,或者存在推销、黄色内容等,在此不做深入探讨。另外则是从发帖内容的统计特点(非语义理解)构建如下特征。

文本URL率=用户所发微博包含的URL总数/数据集里该用户微博总数的比值

转发内容重复率=转发博文内容中有重复的数量/总转发博文数量

非空转发比=转发者在转发微博中有评论的数量/总的发微博数量

03用户关系

在微博网络中,由于其社交属性,对于一个用户来说,首先是其关注的对象应该比较分散,有明星等陌生人,也有熟人。正常用户熟人形成的朋友圈内部往往比较紧密,其所关注的如亲戚朋友圈、同学同事圈之内的用户,往往也会相互关注。于是,一个正常用户就会存在比较多的社会关联性,即与之相关的用户之间的相互关系会较多。相反,不难发现水军用户社会关联性则简单又集中,每个水军账号表面上都是在某个具体舆情事件中,一同将舆情方向推向自己的利益方,但是本质上每个账户之间却没有正常用户所能够建立起的复杂关系“朋友圈”。

04环境情况

水军用户的微博等级一般较低、多数没有开通会员、阳光信用类别也比较低等。这些指标对水军的识别也具有参考性。

如何利用用户关系中的单一特征识别水军

利用微博水军四个维度的特点分析得到的特征,根据判断用户是否为水军的特征数量,分为单因素和多因素判断两种方法,本文先着重介绍单因素识别方法。

01单因素水军识别路线

对于水军特点,一般可以通过人工基于相关理论或者是事实逻辑、常识进行分析,另外也可通过对用户信息进行数据挖掘,发现隐藏在其中的水军特征和行为模式。本文中对于水军特点的发现采用第一种方法。

根据以上分析,就水军四个方面的特点分别进行分析,先定性分析其特点,再利用统计分析法、机器学习等方法(可选步骤)得到一个定量描述问题的指标或者方法。

本文在水军“用户关系”维度中构造了一个特征,进行单因素实例化分析。

02关系图直观描述用户社会关联性

水军用户社会关联性简单又集中,本质上每个账户之间难以构建正常的“朋友圈”。

分析可见,正常活跃用户的各个好友之间的关系明显要复杂于水军用户。水军用户所关注的对象之间,则明显并无太多联系。

基于此,对社交关联性可以使用清晰可见的图论方法来描述和分析。研究中无需对每一个用户都建立图示的社交关联图来人工判别,而是可以构建一个描述这种关系紧密度的公式来测度。

03构建聚类系数定量描述社交关联性

图论〔Graph Theory〕是数学的一个分支,它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。根据图论的知识,可以定义一个所谓的聚类系数用来定量刻画两个好友间互为好友的概率。

微博好友关系网络中,两个在现实生活中相识的用户在微博上也很有可能互相关注,这种可能性的大小反映着朋友圈网络的紧密程度。水军账号关注对象一般互不相识,其相应的聚类系数较小,通过这个方法可以用来判断水军用户。

应当看到,现在网络水军有了许多新的变化,如养号控评,热评背后藏匿不同诉求;水军投票,伪造口碑扰乱市场;营销号抱团,制造热点干扰舆论等。因此,仅用单因素来识别水军是远远不够的,运用多因素分析加强网络水军辨识同样值得关注。


发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注