时空大数据背景下并行数据处理分析挖掘的进展及趋势

作 者:

作者简介:
关雪峰(1980- ),男,湖北松滋人,武汉大学测绘遥感信息工程国家重点实验室副教授,研究方向为高性能地理计算,E-mail:guanxuefeng@whu.edu.cn;曾宇媚,通讯作者(1994- ),女,广东茂名人,武汉大学测绘遥感信息工程国家重点实验室硕士研究生,研究方向为地理信息建模,E-mail:zengyumei@whu.edu.cn。武汉 430079

原文出处:
地理科学进展

内容提要:

随着互联网、物联网和云计算的高速发展,与时间、空间相关的数据呈现出“爆炸式”增长的趋势,时空大数据时代已经来临。时空大数据除具备大数据典型的“4V”特性外,还具备丰富的语义特征和时空动态关联特性,已经成为地理学者分析自然地理环境、感知人类社会活动规律的重要资源。然而在具体研究应用中,传统数据处理和分析方法已无法满足时空大数据高效存取、实时处理、智能挖掘的性能需求。因此,时空大数据与高性能计算/云计算融合是必然的发展趋势。在此背景下,本文首先从大数据的起源出发,回顾了大数据概念的发展历程,以及时空大数据的特有特征;然后分析了时空大数据研究应用产生的性能需求,总结了底层平台软硬件的发展现状;进而重点从时空大数据的存储管理、时空分析和领域挖掘3个角度对并行化现状进行了总结,阐述了其中存在的问题;最后指出了时空大数据研究发展趋势。


期刊代号:K9
分类名称:地理
复印期号:2019 年 01 期

字号:

      1 引言

      随着互联网、物联网和云计算的高速发展,数据获取手段向多元化方向发展,数据种类不断多样化,促使时空相关的数据呈现出“爆炸式”增长的趋势,时空信息与大数据的融合标志着正式进入时空大数据时代。时空大数据除具备大数据典型的“4V”特性外,还具备对象/事件丰富的语义特征和时空维度动态关联特性。对时空大数据进行处理、分析和挖掘得到蕴含的复杂特征是其核心价值所在(李德仁,马军等,2015)。

      在时空大数据时代中机遇与挑战并存。一方面是时空数据量和类型的丰富,弥补了数据缺乏的不足,能够在最大程度上满足各类研究的需求,进一步推动交叉研究的不断深入;另一方面是面对时空大数据时空特征的特殊性,时空对象、事件等要素的动态演化以及相互间的动态关联关系对数据管理和分析带来了极大的挑战。在存储管理方面,以往集中式存储严重依赖单机性能,极大限制了存储能力的可扩展性,无法支撑海量非结构化数据低延迟存取高并发访问。在处理分析方面,以往串行分析算法已无法满足海量时空数据的实时处理需求,不能充分发挥当前新型硬件构架和并行模型/框架的优势。在数据挖掘方面,传统的数据挖掘算法大多是基于常规数据集实现,推广到TB级别甚至是PB级别数据时,其计算效率低、扩展性能差的不足就会显现。因此时空大数据与高性能计算/云计算融合是必然的发展趋势,通过两者融合从而进一步提升时空大数据的利用效率,能更好地为研究应用服务。

      针对上述问题,本文基于时空大数据背景,对现有时空大数据存储管理、时空分析和领域挖掘进行了全面的总结和阐述。首先,从时空大数据的概念和起源出发,介绍了大数据的分类和特点,分析了时空大数据的固有特征。在此基础上总结了现有的高性能计算平台软硬件的发展现状,包括硬件架构、并行计算模型/框架以及各自优势对比。然后,全面总结了现阶段时空大数据的存储管理模式、并行分析策略和数据挖掘算法的并行化实现,并认为并行化是支撑时空大数据进行高效分析处理的重要手段。最后,探讨了时空大数据时代下分布式存储管理与并行处理分析当前发展趋势。

      本文所介绍的时空大数据并行处理分析的软硬件环境及研究应用现状见图1。

      

      图1 时空大数据并行处理分析的软硬件环境及研究应用现状

      Fig.1 Software/hardware environment and research status quo of parallel processing and analysis on big spatiotemporal data

      2 时空大数据

      2008年,Nature杂志在其发表的一篇文章“big data:Wikiomics”中首次提出了“大数据”这一名词(Waldrop,2008)。2011年,Science杂志出版专刊“dealing with data”,探讨了如何借助宝贵的数据资产推动人类社会向前发展(Hong et al,2011)。2012年,美国针对大数据的发展热潮正式启动了一项“大数据研究和发展计划”,以期在从大数据中获取知识方面有所突破。2015年,中国国务院也印发了《促进大数据发展行动纲要》,纲要中基于全球大数据发展迅速和大数据广泛应用于各个领域的现状,提出了中国未来在大数据的发展规划中要加快数据共享、提高管理水平等任务。

      迄今为止,大数据科学已经发展为一门新兴的综合性学科。对于“大数据”,普遍认为它是数据体量(volume)大、数据类型(variety)多、产生速度(velocity)快和价值(value)含量高的数据集合。而时空大数据,则是指与时空位置相关的一类大数据,是时空信息与大数据的融合。日常生活中带有时间与位置标签的数据十分常见,人类生活中所产生的数据约有80%和时空位置有关(Xu,1999)。2011年,麦肯锡环球研究院Manyika等(2011)发布了报告“big data:the next frontier for innovation,competition,and productivity”,报告提出医疗保健、零售、公共领域、制造业和个人位置这五大类数据组成了当前主要的大数据流,而这些数据都具有显著的地理编码和时间标签。因此,如何高效处理分析时空大数据是当前学术界研究的热点问题之一。

      从感知对象角度,时空大数据可以划分为以下2类:

      (1)感知地理环境的时空大数据

      随着对地观测技术的发展,各类遥感数据成指数级增长并逐步积累,成为一类典型的时空大数据,即“遥感大数据”。随着遥感云平台的建设,各类遥感数据服务与处理服务逐渐被发布出来,地理服务从专业走向大众,用户无需搭建专用环境就可以方便地应用遥感大数据。2018年2月,中国科学院正式启动A类战略性先导科技专项“地球大数据科学工程(CASEarth)”。它的目标是建成具有全球影响力的、开放性的国际地球大数据科学中心,逐渐突破技术瓶颈,形成资源、环境、生态等多学科领域融合、独具特色的地球大数据云服务平台,肩负起国家宏观决策与重大科学发现的重任。

相关文章: