大数据热的冷思考

作 者:

作者简介:
匡文波,中国人民大学新闻学院教授、博士生导师,中国人民大学新闻与社会发展研究中心研究员。电子邮箱:wbkuang@ruc.edu.cn;黄琦翔,中国人民大学新闻学院博士生,电子邮箱:huangqixiang910@foxmail.com

原文出处:
国际新闻界

内容提要:

在互联网技术高速发展的今天,大数据重构传媒行业,是产业当下的热点话题。毫无疑问,大数据将给传媒业带来巨大的经济效益。然而,大数据的发展过程也存在着种种问题和隐患,需要传媒业对它的价值进行重新评估。本文通过分析大数据研究方法的缺陷、用户隐私安全问题以及引起的社会担忧三个方面,对目前传媒业中的大数据热进行冷思考,以为政府、学界、业界对大数据的应用实践提供借鉴。


期刊代号:G6
分类名称:新闻与传播
复印期号:2016 年 11 期

字号:

       古希腊哲学家毕达哥拉斯曾经提出“数是万物的本源”的思想,认为世界万物归根结底都是由某种数量关系决定的。在历史上,人类量化世界的野心和尝试从未停止,而科技的进步则不断为这一目标提供越来越快捷的技术条件。2012年,技术词汇“大数据”进入人们的视野,不同于传统意义上“数据=数字”的是,在互联网、物联网高速发展的今天,网购经历、视频节目、微信语音都是数据。大数据技术量化一切的优势,使其在几年内成为每一个行业不可或缺的生产力,拥抱大数据时代到来的言论甚嚣尘上。大数据时代,也意味着信息大爆炸时代的到来,是信息大传播的时代。在传媒业,与其他传播技术相似,大数据的出现促进了整个行业的发展与变革。新闻从业人员通过数据采集与挖掘获得了大量新闻素材,这不仅是人类认知世界的新角度与新方式,而且变革了新闻生产的全流程,“数据新闻”被视为新闻业未来发展的一大趋势。智能化时代,能在分秒间生成新闻产品的“机器人记者”诞生了,受到了广泛关注。同时,基于大数据的个性化推荐服务,不仅实现了新闻信息的精确定位,节省了用户搜索信息的时间,而且也重构了整个广告业格局,数据成为广告营销业实现精确定位消费者的重要依据。

       然而,值得令人反思的是,在传媒业广为追捧大数据的今天,相关的管理规范、制度、法律却相对滞后,甚至缺失,由此带来了许多新的问题。从数据分析角度来看,理论上讲,大数据应当是有别于抽样调查得到的小数据,是全样本数据。然而,事实上大数据的采集与分析过程都难以穷尽所有数据。而且这些收集到的数据还存在着混乱、真假难辨、可利用度低等新问题,需要传媒业重新审视它们的价值。同时,通过数据追踪和收集,隐私问题成为大数据时代面临的最大问题和挑战。尽管以Cookie技术为基础的匿名化信息可能给用户的生活带来许多便利,如亚马逊网站根据用户个人喜好推荐相关书籍。但是多个实例证明,他人借助这些匿名数据同样可以追踪到用户本人,只要用户连网,便无真正隐私可言。新技术的诞生与发展也带来了许多令人担忧的社会影响,甚至可能威胁人类的安全与发展。大数据不是完美的,大数据是一把双刃剑。在促进行业快速发展的同时,也存在着种种隐患,亟待解决的问题非常多。因此,对传媒业大数据热进行审慎、理性的反思非常必要。

       一、大数据无法取代传统的新闻传播科研方法

       从简单的算数、度量,到如今的各种移动终端,数据向来是人类感知、认识以及表达世界的一种重要方式。在小数据时代,由于技术手段有限,人们只能采用抽样的调查方法对事物进行分析,并将局部的研究结果延伸至总体。传统的邮寄调查、电话调查、拦截面访等新闻传播学科的研究方法均是基于这个原理展开。然而每一种抽样方法都存在一定不足,难以反映总体样本的全貌,调查人员一般会增加抽样的数量,以提高统计的精确度,但这也意味着调查成本的增加。大数据技术轻而易举收集大量数据的能力,引发了人们对全样本、全数据的想象。大数据的确具有不可替代的优势,但就此认为一种新兴的技术将完全取代人类数千年积累下来的科学发展成果,这无疑走进了大数据自大的怪圈。随着大数据的不断发展,越来越多的实例证明,全数据分析具有不可替代优势的梦想在现实中并不容易实现,大数据只能对传统的新闻传播调研方法进行补充,却无法取而代之。大数据对传媒业的价值有待重新考量。

       (一)全数据是“乌托邦”

       在大数据浪潮势不可挡的今天,互联网应用推进了社会各个组织机构的信息化进程,物联网技术的发展得以让各种移动设备连接在一起,每一天都能轻易存储下令人惊叹的数据量,全球数据量平均每两年翻一番。因此,区别于传统的抽样调查方法,有人提出全数据模式,它指的是借助大数据技术,获取样本量等于调查总体的数据总量,并进一步进行研究分析的方法。但在现实中,全数据的实现遇到了许多问题,具有一定的理想性。

       在我国,“信息孤岛”普遍存在。除了考虑安全因素以外,更多的是因为组织部门之间的利益驱使而导致的。目前,数据正在渗透各个行业,成为所有行业重要的战略资产和核心竞争力。在“互联网+”、“大数据+”概念的引导下,几乎所有行业都意识到数据资产的重要性。市场先进入者占据了大量数据资源,由于生怕日后被后进入者赶超,各个市场主体彼此之间不愿进行共享,形成数据割据的局面,甚至在同一个组织内的不同部门也是如此。不同领域、行业、部门为了在“孤岛”内更完整地捕捉用户的信息,重复收集数据,既增加了数据采集的成本,又因为不同部门分析标准的不统一导致了分析结论的南辕北辙,造成数据过剩而分析结果却不准确的问题。这个特征在科技公司领域尤为明显,例如:三大科技巨头公司BAT(百度、阿里、腾讯)之间经常发生互相屏蔽的事件:微信和淘宝之间进行相互屏蔽,用户的兴趣产品和购买记录等数据便无法跨平台进行共享。每个公司据此得出的用户信息图景都是不完整的,这与理想中的全数据模式有根本的背离。全数据应当具有数据量大且完整的优势,而“信息孤岛”带来的后果却是变相的大样本抽样调查,而且抽样的样本还不一定具有精确性和代表性,结果的准确性甚至不如传统的市场调查方法。除了科技领域以外,随着大数据应用逐渐渗透到非科技领域,其他传统行业、部门也纷纷设立数据壁垒,进一步阻止了全数据模式的实现。例如:政府部门之间的数据不流通,造成了公共服务领域和政府监管市场中协商与决策的不便与困扰。所有的这些信息壁垒,及其带来的相关数据分析问题,不仅成为本行业发展的阻碍,也同时使传媒业丧失了大量潜在的新闻源。

       大数据浪潮虽已呈不可逆转之势,但就目前看来,全数据模式的确是技术发展衍生的一个“乌托邦”,因此,不能盲目地相信大数据的分析结果,对这些结果采取审慎的态度非常必要。促进数据的开放也是不断将“乌托邦”转化为现实的一个重要途径。开放性本是大数据时代的应有之义,也是全数据模式得以成立的重要前提。自2009年以来,美国奥巴马政府接二连三地签署、颁布了与开放数据相关的政策,这既提高了政府的执政效率,也为科技创新产业的发展添加源动力,数据的“二次利用”是一片更为广阔的蓝海。

相关文章: