一年前“大数据”还是少数专业人士使用的概念,华尔街日报在2012年1月曾刊出物理学家和工学院院长合作的文章《科技变革即将引领新的繁荣》,声称:2012年1月,人类正处于三场宏大技术变革的开端,即“大数据”、智能制造和无线网络革命①。2月13日纽约时报网站即刊文《Age of Big Data》称,“大数据时代”已经来临。而就在2012年,“大数据”概念在中国已经普及至电子商务、经济战略、政治建设等各个领域。在美国,2012年3月29日奥巴马政府宣布投资2亿美元启动《“大数据”研究和发展计划》,希望增强收集海量数据、集中提取知识和观点的能力,加快在科学与工程中的步伐,加强国家安全,并改变教学研究。美国的大学开始培养新一代的“数据科学家”,数据分析也成为美国最热门的职业领域之一。 “大数据”与数据挖掘 “大数据”(Big Data,Massive Datasets)一词几年前开始出现,首先被世界IT大企业重视。“大数据”是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,其主要特点是海量、非结构化和半结构化、实时处理,业界将其归纳为4个“V”:Volume(数据量大),Variety(数据类型多样),Velocity(处理速度快),Value(价值密度低)。“大数据”首先是数据量大:过去常用的千字节(KB),已经升级为兆(MB)和吉(GB),甚至是太(TB),乃至拍(PB)。这不是简单的数据增多,而是全新的问题,比如全球范围内的工业设备、汽车、电子仪表和装运箱中,都有着无数的数字传感器,这些传感器能测量和交流位置、运动、震动、温度和湿度等数据,甚至还能测量空气中的化学变化。②数据容量增长的速度大大超过了硬件技术的发展速度,引发了数据存储和处理的危机。 “大数据”浪潮成了全球政治、经济、文化、社会的变革之引,它成了加速企业创新、引领社会变革的利器。2012年1月在瑞士达沃斯世界经济论坛上,“大数据”是讨论的主题之一,论坛上发布的一份题为《“大数据”,大影响》(Big Data,Big Impact)的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。联合国推出了名为“全球脉动”(Global Pulse)的新项目,进行所谓的“情绪分析”,使用自然语言解密软件来对社交网站和文本消息中的信息作出分析,用来帮助预测某个指定地区的失业率、支出削减或是疾病爆发等现象,其目标在于利用数字化的早期预警信号来提前指导援助项目,以阻止某个地区重新陷入贫困等困境,促进全球经济发展。 数据挖掘(Data Mining),也称为网络挖掘(Web Mining),斯坦福大学数年前就开设了一门课程“Web Mining”并出版了讲义《数据挖掘》(Mining of Massive Datasets)③。数据挖掘是“通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。”④新闻界是数据的重要应用者,在互联网时代媒体经营、新闻实务等几乎一切都离不开“大数据”、数据挖掘。“大数据”时代大部分数据都是在自然环境下产生的,比如说网络言论、图片和视频等网民自发上传的内容,以及来自于传感器的数据等,即所谓的“非结构化数据”,通常不能为传统的数据库所用。因此从互联网时代非结构化数据的庞大宝库中获得知识和洞察力的计算机工具正在迅速发展,目前已经具备人工智能(AI)技术,比如自然语言处理、模式识别和机器学习。 传媒运用数据挖掘 彭博案例 西方媒体对数据的运用越来越重视,出现了不少专门与数据打交道的记者,通过数据挖掘的方式进行新闻报道。他们在繁杂琐碎的非结构化数据之后,发现常规新闻中不能体现的逻辑,帮助读者对新闻事件进行深度解读。数据挖掘的新闻往往比传统新闻报道更有力度,也对记者提出了更高的要求。这里以彭博社一个数据挖掘类的报道栏目“今日图表”(Chart of the Day)为例,解读数据挖掘在新闻报道中的应用。 彭博新闻社依托其全球终端建立起来的海量的数据库,使得记者进行数据挖掘非常得心应手。彭博的“今日图表”“这个栏目将彭博新闻、彭博数据与彭博分析整合起来”⑤,其深度、速度和灵活性都非常高,工作难度也很大。彭博主编Matthew Winkler声称这几乎是竞争对手无法复制的栏目,至多能滞后些做出来。它通过图表和简单的事实而非说教来阐明道理,是彭博新闻“show,don't tell”理念的体现,是一种“简单而优雅的呈现观点以及点燃想象力的”⑥方式。 “今日图表”的构成有两部分,一部分是由彭博制作的图表,另一部分是一个4段至6段的文字报道。首先,记者或编辑从纷繁复杂的数据、报道中寻找灵感的过程。“今日图表”灵感一般都来自最近发生的新闻。记者或编辑的“想象力,对数据的深入分析,每天的新闻标题,市场价格的异常变化,或者与分析师、投资者、经济学家的谈话也能提供灵感”⑦。 哪些数据值得挖掘? 正在或刚发生的、读者关注的重大新闻事件,通过用数据挖掘得出的不同视角,可以丰富读者对事件的认知。彭博社很重视相关深度信息的呈现,如下面几例: