不管批评者对大数据如何不屑一顾,如将其称之为“大忽悠”,认为“大数据概念存在被过度炒作之嫌”、大数据的功能被夸大、大数据给国家安全和个人隐私带来了挑战等,①不可否认的事实是,随着以互联网为核心的信息技术飞速发展,人类拥有的数据规模正在像滚雪球一样呈几何级数递增。相关统计显示,1998年全球网民平均每月使用的流量是1MB(兆字节),2000年是10MB,2003年是100MB,2008年是1GB(1024MB),2014年是10GB。全网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而在2013年仅需一天。②正是基于这一现状,舍恩伯格等人宣称:“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式。”③人类就是在对大数据概念尚未形成共识的情况下,迎来了大数据时代。 大数据概念一出现,立刻引起了各国政府、科学界和社会大众的广泛关注。2012年以来,美国奥巴马政府先后发布了《大数据研究发展计划》、④《大数据:抓住机遇、保留价值》、⑤《大数据与隐私:技术视野》⑥等报告;2014年,欧盟发布了《跨向欣欣向荣的数据驱动型经济》的报告;⑦2015年9月,中国政府也发布了《促进大数据发展行动纲要》,将数据认定为国家“基础性战略资源”,强调要“建立和完善大数据产业公共服务支撑体系”。⑧与此同时,各学科研究者争相探讨大数据与本学科发展的关系,⑨中共党史学自然不能置身事外。根据党史界较为一致的观点:“中共党史学是带有鲜明政治学特点的历史学科”,“是一个大的专门史”,⑩所以史学界对大数据与历史研究关系的讨论,势必会影响到党史研究。 围绕着大数据对历史研究的影响,相关观点大致可以分为两派:支持者认为,大数据不仅扩大了历史资料的范围,而且有助于提升历史活动中大众主体的角色定位,推动历史学从“庙堂之学”走向“公众之学”。(11)其中量化史学派尤为主张在历史研究中利用大数据技术,认为在一定条件下历史是可以被量化的,大数据技术为这种量化提供了可能和便捷。(12)反对者则认为,大数据是信息时代的骗局,历史是不可以被量化的,大数据无法替代研究者通过亲身体验去了解当时当地的历史情景,获取优质数据必须参与实践和走向社会,而不是宅在家中面对电脑。(13)我们无意去评价这些观点的是与非,但这场争论也给党史学科提出了一个无法回避的问题:党史研究该如何科学运用和处理数据? 一、党史研究中运用和处理数据的学术史回顾 根据当前学界较为一致的看法,所谓数据,是指进行各种统计、计算、科学研究或技术设计等所依据的数值,(14)它是人类在测量、记录和计算中用于记载事物、描述世界的工具和手段,是信息的载体。被电子化之前,数据的体量通常都比较小,在人类表情达意和记叙历史的过程中,其功能发挥也相对有限。在党史学科发展史上,重视利用数据来记载历史和论证观点,并逐步做到对数据的科学化处理,是党史研究的一个优良传统。 目前已知最早从党史角度研究中共发展进程的文章,是陈公博于1924年1月在哥伦比亚大学撰写完成的硕士论文《共产主义运动在中国》,就非常重视对数据的运用。在阐述中国革命爆发和中国共产党成立的必然性时,该文对当时中国走向赤贫的农民和无产者的数量、外债复利数、政府借款数、童工日工作时间等,都进行了数据统计。尤其难能可贵的是,文中还专门列出了《赔款和战争借款》、《铁路借款》、《一般借款》、《各省借款》等表格,把本金数目、借款时间和利息率等内容,用具体数据予以说明,使作者的观点一目了然。(15)此外,早期一些其他党史著作(报告),如蔡和森的《中国共产党史的发展》、瞿秋白的《中国共产党历史概论》、华岗的《中国大革命史》等,在阐述相关问题和论证作者观点时,也非常重视利用数据。1926年,蔡和森任中共驻共产国际代表团团长时,应莫斯科中山大学旅俄支部邀请,在支部大会上作《中国共产党史的发展(提纲)》。报告一开篇,蔡和森专门就“报告中很少正确的统计的实际材料”向大会道歉,(16)说明他有很强的数据意识。瞿秋白《中国共产党历史概论》第三、四讲在介绍当时中国经济发展、社会阶级、党员结构等问题时,也均运用数据予以说明。(17) 从红军长征到达陕北至新中国成立前,是党史研究取得重要进展的时期。这一时期党史研究的代表性成果,如由张闻天编著并于1936年开始印行的《中国现代革命运动史》,在列举帝国主义入侵罪行和阐述革命爆发的必然性等问题时,将列强输入商品、在华经营铁路、修建船厂、投资银行、发展工业,以及中国金银外流、原材料输出、清政府举债、入超等方面情况,都配以详细数据逐一说明。对于当时中国无产阶级的规模和数量,张闻天既利用了当时的官方数据,如1930年《第二次中国劳动年鉴》和同年铁道部、交通部的统计,也援引苏兆征、苏联卡赞宁、李达等人的民间数据。这些数据因为统计口径和方法不一,可能存在纰漏,但却起到了说明问题的作用。(18)此外,叶蠖生于1939年编著的《中国苏维埃运动史稿》,也非常注重发挥数据在历史叙事中的作用。书中许多数据和材料,是作者利用当时各解放区负责人集中在延安学习的机会,广泛搜罗采访而来。据叶蠖生回忆,为了提高数据和材料的质量,他将口述资料与《红色中华报》和《向导》等报刊上的材料相互佐证,以减少错讹。(19)