doi:10.11820/dlkxjz.2013.09.005 修订日期:2013-08. 1 引言 “大数据”(Big Data)最早被认为是更新网络搜索索引需要同时进行批量处理或分析的大量数据集,但后期不仅仅表达一个数量概念。大数据具有数据量巨大、类型复杂、价值密度低以及处理速度快4大特点,可划分大数据技术、大数据工程、大数据科学和大数据应用等领域。其中,大数据技术和大数据应用为目前发展的主流。根据中国互联网络信息中心(CNNIC)发布的《第31次中国互联网络发展状况统计报告》统计,2012年中国网民规模达5.64亿,年增长率为3.8%;手机网民数量为4.2亿,年增长率达18.1%。网络开始成为城市经济和社会发展不可或缺的平台,并全面影响着居民活动、企业经营、科技研发以及政府管理,从而使获取大量反映城市空间组织和居民行为特征的网络数据(社交网络、主题网站、搜索引擎等)成为可能。同时,基于定位功能的移动信息设备(GPS、智能手机、IC卡等)技术的逐渐成熟,也提供了较为精确的居民位置信息,中国的“大数据”时代已经到来。 传统的城市时空间行为研究方法主要分为定量分析和质性分析两大类。定量分析主要通过人口普查(Martin,1993)和活动日志(柴彦威等,2009)两种调查手段来获取数据,并运用描述性统计、因子分析、聚类分析、回归分析等统计分析方法和时空棱柱或路径、叙述性偏好、结构方程模型等数学模型对城市的时空间行为现象进行研究(Miller,1991; Polak,1993;柴彦威等,2012;张文佳等,2009)。质性分析的数据获取手段有观察法、访谈法、口述史法、民族志等,参与式观察和深入访谈为质性分析中最常用的方法。大多数学者认为,居民行为数据的采集与处理是时空间行为研究的关键(Kwan,2004; Lenntorp,1976;柴彦威等,2012),但是现有的人口普查方法并不能涵盖居民空间移动的复杂性和工作生活的弹性(Mateos,2004),活动日志数据的精确性也因调查者的回忆、习惯、填写态度等影响而大打折扣(Ettema,1996)。另一方面,质性分析虽然可以通过调查者长期、深入、细致的观察和体验来积累较为翔实的一手数据资料,却受到了调查问题设计、调查者自身主观判断及访谈规则等因素的制约(Maxwell,2008;陈向明,2000;胡萍,2012)。同时,由于调查内容复杂、过程繁琐,进行社会调查和深入访谈所花费的人力、物力、财力也较大(Hagerstrand,1978),样本分布的时空间尺度往往较小,加之传统简单的统计分析数据处理技术的限制,研究结果难以应用到日常的城市规划与管理。 信息技术的进步加速了知识、技术、人才、资金等的时空交换,使得城市生产与居民活动范围持续扩大、类型更加复杂,并促进了产业重构和空间重组,进而改变着区域和城市的空间格局。这一过程中,时间、空间及其相互关系都会发生新的变化,流空间将成为区域、城市以及居民活动的主要载体(Castells,1989),并通过大量而复杂的网络或移动信息设备数据的形式表现出来。由于时空间概念被重新定义,城市时空间行为研究面临着研究范式的转型和内容与方法上的革新(甄峰等,2012),加之传统研究方法存在诸多问题,更需要从理论和方法论高度进行扩展以解释不断变化的经济社会现象。因此,在大数据时代,通过利用信息数据来研究城市空间和居民行为问题将为现有城市时空间行为研究提供新的方向,对于重构和丰富城市地理学科理论、指导城市的规划与建设都具有重要意义。 2 大数据时代数据获取与处理技术 近年来,伴随着互联网、3S技术(GPS、GIS、RS)以及智能手机的迅速发展,人文社会科学领域的研究数据获取与处理已经出现了新的趋向。主要包括:利用软件对网络数据进行挖掘;利用GPS或LBS设备,结合GIS或网络日志来采集与分析居民行为数据;利用网络地图对获取的数据进行可视化开发。这些技术可以作为大数据时代城市时空间行为研究数据的重要来源,将有利于扩大研究的范围,并增加研究结果的精确性。 2.1 网络数据的挖掘技术 网络数据挖掘是计算机科学研究的重要内容,包括内容挖掘、结构挖掘和使用挖掘3种类型。其中,内容挖掘是对网页文本和媒体数据的获取,用于研究用户活动状态和特征;结构挖掘是对网页链接结构进行分析,用于评估网页的资源量;使用挖掘则是通过挖掘网页访问的日志记录,以便提供个性化的产品和服务。 目前,网络数据的挖掘主要是通过设计“网络爬虫”(检索和获取数据的计算机程序)软件实现的,且不同的网站或数据获取目标需要设计不同的爬虫程序。例如,搜索引擎中访问量或权威网页挖掘程序(凌志泉,2003)、社交网络中用户地址、文本、图像及关系等数据挖掘程序(孙拔群,2011;王波等,2013)、网络中热门事件挖掘程序(Rock,2011),以及淘宝网等主题网站的数据挖掘程序(冯观强,2012)等。 由此可见,现有网络数据挖掘技术已经较为成熟,可挖掘的数据种类基本涵盖了网页中具有显性和隐性特征的所有信息。随着互联网对城市居民生活影响的不断加深,网络数据越来越成为表征居民社会活动的最重要载体,对其的应用研究也开始受到了社会学、地理学、管理科学等领域学者的关注(施伯乐等,2010)。