大型数据的积聚形成数据的密集型(data-intensive)的集合。如果将一个“数据”理解为由一个个体提供的资源,那么由众多“数据”叠加就可成为“大数据”(big data)。“大数据”可以带来由量变到质变的惊喜,帮助我们更新对世界的认识。对此,大数据研究的先驱美国著名信息科学家Mayer-
在上海外国语大学举行的一个讲座上打过一个比方:拍摄了一连串骑马的照片,若连续快速播放这一连串不同形态的照片,我们就会体会到由量变导致质变的变化,动态的画面与静态的画面是有着本质上的区别的(参见http://edu.sina.com.cn/bschool/2014-12-19/1147449582.shtml)。大数据使我们对事物有新的观察和体验的方式,从而获得新的体验和认识。这就是大数据时代所赋予我们新的洞察力。 大数据给予我们这样的洞察力现在已经转化为一种科学研究的新范式,这就是当代科学研究的“第四范式”(The Fourth Paradigm)。大数据可以帮助揭示研究对象多方面的情景,并使我们从大数据中感悟到有关事件、现象的整体映像以及所蕴含的相关性和规律性,从而有可能追寻到事件、现象被隐藏的真相。“让数据说话”(let the data speak)(Mayer-
,2012:6),正是第四范式的精髓所在。 科学研究的第四范式也开启了语言研究一系列的新理念。但是“让数据说话”是有条件的,那就是“要拥有足够多的数据和足够聪明的算法”(段伟文,2015:114);不然的话,就会像德国文艺复兴早期哲学家、思想家库萨的尼古拉(Nicholas Cusanus,1401-1464)曾经描写过的“有学问的无知”(库萨的尼古拉,1997:封面)那样,会成为“有数据的无知”。那么,语言研究工作者如何才能因有数据而获知?这一科学研究的新范式对于语言学研究有什么新的启示?这是本文想要探讨的问题。 1.密集型大数据时代 1.1 大数据的数学描写 进入21世纪,随着信息科学和信息技术以及由此而带来的互联网运用的迅猛发展,人类从模拟信号世界进入到数码信号世界,现在我们的社会开始步入一个以超大数据为特征的信息化时代,这就是数据密集型的积聚,也可称为“大数据”。数据如何超大?下面的数学描写可以给我们一个感性的印象: 目前一个“数据集”的总量是以ZB级为单位计量的。怎样认识这个ZB级的数据集呢?1ZB信息的数据约为十万亿亿个字节(byte)。而一个汉字占2 byte,不分字的繁简,十万亿亿个字节就约为五万亿亿个汉字组成的信息集合;一个英语字母占1byte。一个byte是8个bit,bit是二进制的一个位,就是0或1;8个bit就是例如0101 1001这样的一个二进位数。数据的其他计量单位排列如下: 1BB(brontobyte)=1024YB,即约为一千亿亿亿个字节(以下除最后一个均“约为”); 1YB(yottabyte)=1024ZB,即一亿亿亿个字节; 1ZB(zettabyte)=1024EB,即十万亿亿个字节; 1EB(exabyte)=1024PB,即一百亿亿个字节; 1PB(petabyte)=1024TB,即千万亿个字节; 1TB(terabyte)=1024GB,即万亿个字节; 1GB(gigabyte)=1024MB,即千兆个字节; 1MB(megabyte)=1024KB,即一兆个字节; 1KB(megabyte)(kilobyte)=1024个字节 (参见http://baike.baidu.com/subview/228795/10542267.htm) 这里一再提到的1024是2的十次方(2^10)。上表中上一个级别是下一个级别(如BB级别对于YB级别、YB级别对于ZB级别等)的1024(2^10)倍。另外还要说明的是,“兆”作为数的单位,我国历史上有过以下的三种不同体系:指百万、万亿、亿亿。目前,我国内地以及香港特别行政区和澳门特别行政区规定,“兆”指10^6,即1,000,000,相当于英语词头Mega;我国台湾和日本则规定“兆”指10^12,即1,000,000,000,000,相当于英语词头Tera;而计算机的“兆”的容量大约是10TB。这些数字大约能让我们对大数据之“大”有一个感性的认识。 大数据局面之所以形成,是因为当前人类在对自然、对社会、对人类自身的改造和认识的过程中产生了海量的信息,而信息量的激增又刺激了记录、处理、存储信息的信息技术的发展。现在人类社会已经有需要也有技术能力积累和处理各类信息的大型数据,并已形成规模庞大、数量惊人、种类繁多、专业混杂、具有高价值的巨型数据集合。数据的规模越来越大、动态变化越来越迅猛,既有离线的处理,也有实时的动态分析,这就是大数据。数据的海量聚合影响了人们观察、思考问题的思路,催生了科学研究的新方法,更新了科学研究的研究范式。由于大数据所涉及的面极广,任何研究都逃脱不了大数据的“缠绕”;人类一切活动都要使用语言,语言活动更逃脱不了大数据的“缠绕”。