大数据时代的思维变革

作 者:
贾凯 

作者简介:
贾凯,陕西省审计厅

原文出处:
现代审计与经济

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2016 年 11 期

关 键 词:

字号:

      大数据是这几年互联网领域的一大热门话题。最近,这个话题的热度已经不仅局限在互联网领域了,正在逐渐拓展到其他领域,成为全社会关注的话题。那么,什么是大数据?大数据的特点是什么?为什么现在才有大数据?大数据的应对方法是什么?大数据时代能带来哪些变革?这些变革对于审计工作有什么影响?这一系列问题都有待回答,本文将量力而行,给以上问题做出初步回答。

      一、什么是大数据

      毫无疑问,大数据是一个新鲜概念。对于这样的新鲜概念,其定义也要经过时间的积淀才能明确。就目前而言,业界公认度高的是IDC的“4V”理论,即

      Volume(数据量大)、Variety(数据多样性)、Velocity(数速大)和Value(价值密度低),在此基础上,IBM重新定义并完善了“4V”理论,将最后一个“V”改而解释为Veracity(真实性)。但大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,从大数据中提取、挖掘对业务发展有价值的潜在知识,找出趋势,做出预测性分析。

      二、为什么现在才有大数据

      可以从数据的产生、采集、存储三个步骤来分析:

      一是生产信息的门槛降低了。要想知道现在数据产生有多方便,可以首先回顾一下以前的数据产生方式:20年前,如果想让别人知道你的观点,只能是向报纸投稿,或者出版著作,这要求的写作技能太高了,对普通人来说是不可能的。10年前,博客开始流行,稍有写作水准的人都可以发表文章。4年前,微博大行其道,只要不是文盲,就能玩转这最多只有140个字的小玩意儿。现在呢,手机拍照,分享到微信朋友圈,已经成为大多数人的新选择,朋友圈甚至都不鼓励用户发纯文本的状态。在这个时代,几乎人人都可以玩转朋友圈了。可以看到,每一次变革都极大地降低了生产信息的难度,极大地扩充了具备生产数据能力的人群。所以说,技术的进步给了普通人发表观点的机会。

      二是数据采集的难度降低了。这一点主要得益于现实世界的不断数字化,线下的内容不断向线上迁移,具体表现为两个方面。首先是,原来需要专业技术人员才能干的事情,现在普通人也能干了。比如给人物留影,从画家蜕变为摄影师,到现在人人都能拍照。再比如测量地理位置,以前要专业的测绘人员,现在打开手机地图应用就可以了。其次是,以前不可能实现的数据采集,现在也能实现了。例如,顾客在每样商品前的停留时间。在传统的商店里,采集这个数据是不可能完成的任务,而在淘宝上,顾客在每个商品页面的驻留时间,是一目了然的事情。

      三是数据存储的成本降低了。大约十几年前U盘的卖点是1MB只需要1块钱,现在京东上1T的硬盘,价钱不到400元,更别提企业的大规模采购价了。

      以上三点,决定了大数据时代只有在现在才能到来。其中第二条更是可以说明,为什么大数据最先兴于互联网领域,因为互联网领域的数据采集难度最低。但是,随着传感器技术的进步和物联网的发展,大数据将无疑会渗透到各行各业。

      三、大数据时代的思维变革

      大数据究竟能带来哪些思维变革,维克托·迈尔在他著名的《大数据时代》中提出了以下三点可以参考:

      一要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。假设要研究人与人之间的互动关系,现在不需要去进行繁琐的调查问卷发放、填写、回收、统计工作了。只需要分析中国移动用户的通话记录,就足以发现人与人之间联系和人际圈子形成的奥秘。又假设要研究北京市人口随时间的流动,只需要收集到北京地铁卡的进站和出站数据,就能获取精确的人口流动记录。类似的例子还有很多,春节时期腾讯发布的春运地图,就是利用其旗下QQ、微信等客户端在不同地域登录的数据,分析全国人口的流动性的。可以说,在大数据时代,抽样分析已经是落伍的技术,那只是在技术受限的特定时期被迫采用的技术而已。

      二要接受数据的纷繁复杂,而不再追求精确性。在小数据时代,对数据的预处理是十分关键的一步,而预处理的一大部分工作内容就是剔除野值。在大数据时代,数据的精确性已经不再是决定性的因素,数据的规模才是。假设要测量北京各区域的温度,如果在每个区域只有一支温度计,那么就必须确保这个温度计是准确的。然而,假设现在用智能手机来测量温度,单个手机的测量结果自然不精确,随便玩玩游戏上上网什么的都会导致手机发热。不过不要紧,考虑到现在手机的普及程度,在一个区域拥有上万台手机是很正常的。综合利用这是上万台手机的数据,再利用手机温度和气象温度的相关性,一定能得到比单支温度计更精确的结果。

      三要关注事物的相关关系,而不是难以捉摸的因果关系。迈尔的这个观点最受争议。通常来说,发现因果关系是一个更难的问题,对于大规模复杂系统更是如此。因此,将注意力转移到相关关系上是一个更为经济的做法。什么是相关关系,就是B事物发生与A事物相关。互联网上常见的推荐引擎,比如亚马逊推荐相关产品,豆瓣推荐相关书籍,网易推荐相关新闻,这些技术的原理都是在发觉数据之间的相关性。至于为什么B事物的发生与A事物有关系,这当然很重要,但已经不是重点了。在大数据时代,知道“是什么”比知道“为什么”重要得多。

相关文章: