修订日期:2015-03-23 DOI:10.11821/dlyj201505001 1 “大数据”:人文地理学研究的新机遇 近年来,“大数据”已经渗透到全球范围内社会经济的各个领域,成为一个热点话题。在
等的《“大数据”时代:生活、工作与思维方式的大变革》中,特别指出信息时代的“大数据”正在开启一次重大的时代转型,带来了生活、工作与思维的大变革[1]。与此同时,“大数据”所蕴含的科学研究价值也吸引了众多学者的关注和重视。“大数据”已经发展为重要的研究领域,并成为许多学科的热点与主流[2,3]。2008年9月4日Nature杂志专门推出“大数据”的专刊,凸显“大数据”在各领域的研究与应用价值[4]。虽然,已有不少关于“大数据”与社会发展之间关系的深刻讨论[5-7],但较少涉及“大数据”与人文地理学研究之间的关系,特别是对于“大数据”与“大数据”背后的空间内容、空间进程间的关系。在人文地理学领域,带有地理空间信息的“大数据”直到最近才开始受到人文地理学者的关注[8]。 “大数据”,可以理解为信息时代背景下社会科学研究可能出现的新范式,是区别于传统的基于“小数据”的研究范式。在传统范式下,研究起源于问题发现,基于问题再收集相关数据。但由于时间和经费的限制,数据收集往往限制在小范围内的抽样调研。虽然数据的规模有限,但都是针对于研究问题,并经过分析回应相应的研究假设。而在新的范式下,研究可能起源于数据。由于获取数据的便利性,往往尽可能多地收集所有不同类型的数据,进而去寻找数据间的相关性或客观存在的规律,以期待回答未知的研究问题。人文地理学,作为研究社会经济空间组织和人地关系的一门学科,一直以来注重对空间的思考。随着带有地理空间信息的数据成为“大数据”的重要组成部分,基于“大数据”的空间分析给人文地理学研究带来了新的发展机遇,并引发了近期人文地理学研究的“大数据”热潮[9]。 1.1 “大数据”的定义、特征与类型 总的来看,当前仍然没有形成对“大数据”统一的定义。早在17世纪,哲学家们使用“数据”这一词汇,专指真实的、反映事实的相关信息[9]。长期以来,研究过程中的“数据”指的是依据某些传统调研方法(例如:问卷、访谈、日志等)收集的信息,以及这些信息所抽象表达出来的意义。进入20世纪80年代,信息通信技术的进步改变了人类的生活方式,加速了信息的存储、交换与计算过程。特别是互联网的使用,遗留下大量的数据“痕迹”,而且产生的速度也是日益增倍。据Hilbert等的研究表明,仅2007年人类大约存储了超过300EB的数据,而人类存储信息量的增长速度比世界经济的增长速度快4倍[10]。这一海量的数据被形象的称为“大数据”,这一定义突出体现了数据规模大的特征。但是,“大”反映的是一个相对的数据规模增长趋势,仅仅突出数据规模是远远不够的,而且可能造成误解。其实,在“大数据”被关注之前,就已经存在不少基于传统调研方法的大样本数据。因此,如何界定“大”非常困难。规模大只是“大数据”的一个特征,并且规模划定的标准也会随着技术的进步与时间的积累而变化,不应该是对“大数据”的定义。更要认识到,“大数据”是区别于以往传统数据的新的数据类型。 基于已有的研究成果[1,5,11,12],“大数据”的主要特征包括:①数据规模大,超过以往研究的数据规模,甚至超过当前研究人员所能掌控的数据规模;②数据生产速度快,基于大量的智能终端设备及互联网,每分每秒都在产生并传播海量的数据信息;③数据来源与类型多元化,缺乏一定的数据过滤与合成机制,既包含结构型数据也有非结构型数据;④数据覆盖面广,由于互联网的不断普及,数据几乎能够涵盖到所针对的所有人群代表;⑤数据细节丰富,且节约数据输入、存储、编译的时间费用;⑥数据间存在相关性,不同类型的数据之间存在一些方面的共性,从而能够累计与整合不同的数据类型;⑦数据有弹性,既可以灵活链接其他的数据类型,也可以随时增加数据规模;⑧数据的空间属性,随着位置感知设备、基于位置服务技术及其他相关技术的发展及应用,越来越多的数据携带了地理位置信息;⑨数据来源不明晰,由于数据来自各个方面(个人或群体),缺乏对数据质量和样本抽取的控制。 简单来看,“大数据”可以大致划分为三种类型:直接观测型、自动获取型与自愿贡献型。①直接观测型主要是指由各种电子监视器等(例如道路卡口摄像头)直接观测的数据,往往针对某一特定地方或人(群)。②自动获取型数据是由于电子信息设备或相关网络应用程序的使用而自动留下的网络“痕迹”。例如网络中留下的搜索与浏览记录;网络购物留下的交易数据、快递包裹留下的转运记录;出租车GPS记录的时空出行路线、智能公交卡记录的上下车出行记录;手机基站检测得到的手机用户位置、手机用户间的通信记录等。③自愿贡献型数据是人们自愿在网络上发布或分享的数据,主要是社交网站上使用者的相互作用,例如社交网站签到留下的时空数据、社交网站用户的社交关系网络、社交网站用户的相关言论,以及Frickr等分享网站上游客上传的照片信息等。 1.2 “大数据”为人文地理学研究带来新机遇 “大数据”提供了丰富的、详细的、实时的信息,有助于社会科学家更加全面、大尺度、精细化地研究各类社会科学问题,为社会科学研究提供了新范式的转型机遇:即从数据缺乏到数据充裕,从静态分析到动态展现,从单一研究假设与简单模型到复杂理论与模型。从实证主义来看,“大数据”为社会科学提供了计量革命的新契机;“数据导向”的新范式将挑战传统社会科学研究基于归纳、演绎等程序的认识论[13-16]。考虑到越来越多的“大数据”携带的地理空间属性[17],无疑也为关注空间的人文地理学研究的发展提供了新的机遇。同时,更加重要的是,在当前社会科学空间转向的大前提下,“大数据”为人文地理学在整个社会科学领域内争取更多的关注与重视提供了新的契机。