一、研究缘起 随着社会化媒体的崛起,微博凭借其公开、互动、开放、平民和易整合等特性快速成为独立于传统社会话语场域的全新社会话语场域,扮演着整个社会话语场域的信息源和桥节点,成为整个社会话语场域的舆论策源地、信息动力源和发酵池,并为公民社会的公民意识、公共空间、公共话语权三要素提供了发展空间,成为构建公民社会的重要公共话语平台。 微博以其即时性和嵌套性等人际传播的基本属性,使其成为更加活跃的爆料者和信息桥。微博开始作为重要的社会新闻源登上历史舞台,日益展现出其独特的优势和影响力。据《中国社会舆情蓝皮书(2013)》(喻国明,2013:69-70)相关数据显示,2012年以微博为首发主体的舆情事件占到了所有舆情事件总体的32.1%。另外,微博还扮演着主要的社会话语场域的信息桥节点,很多信息都是从论坛、博客等话语场域通过微博的中介传递到大众媒体话语场域,进而影响到整个社会的。 微博扮演着重要的社会话语动员角色,很多社会行动如随手拍行动、免费午餐计划等都是在微博中倡导,通过在微博进行充分的社会动员进而影响到线下的;同时还扮演着还原社会真实、社会讯息碎片黏合的重要作用,很多社会信息在微博中以碎片化甚至谣言的方式存在,通过微博用户的集体力量和贡献,完成社会真实的“再构建”,进而实现“社会真实的有机运动”。另外,微博还为社会讯息提供意见加工、贴标签等的“仪式赋予”的功能,很多讯息一般以事实判断的形式进入到微博场域,微博中话语精英通过其内化的“文化地图”对其进行价值判断,以提供意见或贴标签等方式赋予其更大的社会价值意义,使之得以快速地传播开来。 微博影响社会话语场域的主要方式是建构社会性话题并在全社会范围内进行议题设置,其中最为外显化的形式是通过社会热点事件构建传播场域。微博热点事件是微博中传播范围最广、参与对象最多的社会性事件,是线下社会现实矛盾和社会结构紧张度的集中释放,研究微博中社会热点事件的传播机制及特性有利于把握微博平台独特的信息传播模式,把握微博中社会热点事件的传播规律,进而为社会化媒体环境下社会管理创新提供有效的借鉴价值。因此本文主要借助数据挖掘的技术,研究近两年来新浪微博中21个重要社会热点事件的传播特点(传播结构、传播深度和广度等),以期掌握不同类别社会热点事件的微博传播规律。 二、研究方法 (一)数据抓取 本文采用爬虫技术通过新浪微博API(Application Programming Interface)接口进行数据抓取,新浪微博与其它微博网站(如Twitter)类似,用户之间构成有向无权网络。用户可自由添加关注的其他用户,称之为Followings;也可在未经许可的情况下被其他用户关注,称之为Fans。用户发表的话题将会自动推送给该用户的所有Fans;类似地,用户也可自动获知所有Followings发表的话题信息,这些信息几乎是实时更新的。为了获取新浪微博的真实用户数据,本文编写了针对新浪微博的爬虫程序,该爬虫程序采取广度优先和随机采样策略。首先,从新浪微博“名人堂”各个子栏目中,随机选取10个用户作为种子用户,加入爬虫工作列表;然后,获取这些种子用户“朋友”列表,包括Fans列表和Followings列表。由于有些用户的粉丝数量很大,比如姚晨,要获取整个网络用户信息不太现实。为此采取随机采样策略,从“朋友”列表中随机选择最多50名用户加入工作列表,继续爬取用户信息。采用上述策略收集的部分用户信息能较好地反应微博用户的整体情况。 (二)数据集 本文使用的数据库2010年9月15日开始收集数据,目前已经收集的用户数大约有40万,以文本形式存储,占用空间50G左右,总计超过1亿条微博。收集的信息包括两部分:一是用户基本属性信息,如ID、Name、Gender、VFlag、Address、Tags、Fans、Followings、Tweets;二是用户话题内容信息,如话题内容属性、转发次数、评论次数。爬取的内容几乎涵盖了该用户的所有信息。其中VFlag是认证用户标识,新浪微博采取实名制等形式对知名用户进行实名认证。 (三)样本选择 本文根据中国人民大学舆论研究所的《中国社会舆情年度报告(2013)》(喻国明,2013:91-94),选取2011年、2012年两年内主要的21个热点舆情事件为研究样本,相关事件列表如下表1所示。
(四)关键词确定 本文的关键词是通过搜索引擎推荐和金花追词关键词工具获取的,金花追词关键词工具可以抓取与事件相关的前50、100、200个等相关词。通过以上方法,每个舆情事件可以确定对应的一个关键词列表,应用此关键词列表在原始数据集中抓取与该舆情事件相关的数据。 (五)最终数据集 在原始数据集中,抓取到以上21个事件总计约500万条的微博作为研究样本。 (六)关键定义说明 本文中将使用两个关键概念:转发深度和转发宽度。转发深度指同一条微博信息传播流的环节多寡,如下图1所示,原始微博经过转发者B1和转发者C1、C2等的转发,其转发深度为2级,单个话题中转发深度极值越大,其信息链条越长,说明该事件越受关注、越容易引起民众的讨论兴趣。 转发宽度指一条微博转发的信息链条中,单个信息链条结点被转发的次数,转发次数越多,转发宽度也就越大。如下图1所示,从转发者B1这个节点有四个转发者进行转发,那么在转发者B1这个节点,转发宽度为4。 转发者B2 转发者C1 转发者C2 转发者C3 转发者C4 原创微博A1 转发者B1 转发宽度 转发深度
图1 转发深度和转发宽度的示意图