修订日期:2009-09. 1 引言 自20世纪50年代开始凸显的资源、环境、生态、灾害等问题直接涉及人类的生存与发展,渗透在社会生活的方方面面,使人类面临着来自赖以生存的地球的巨大挑战,也对科学研究提出了新的要求。为应对这些复杂问题,新的研究模式与研究思维开始快速发展,这促使地球科学的发展进入了一个新的历史时期。刘东生先生曾指出,地球科学在经历了“地球科学的系统”、“系统的地球科学”两个阶段后,从20世纪80年代中后期开始进入第三个阶段,即“地球系统的科学”时期[1]。地球系统科学把大气圈、水圈(含冰雪圈)、生物圈、岩石圈、地幔和地核、近地空间以及人类圈作为紧密联系的整体研究对象,采用复杂系统科学理论和方法以及现代高新技术手段研究其相互作用的过程和机理[2-3]。 地球系统科学是地球科学21世纪发展的前沿领域,具有一系列显著的特征,诸如全球系统观、全时空尺度、多学科交叉集成、高新技术应用体系化、高投入、高精度、信息数字化、强社会应用性、大科学计划推动、国际合作等[4]。地球系统科学的研究对象是地球系统及其整体行为,研究方法是对全球环境变化进行观测、理解、模拟和预测。这二者决定了地球系统科学的研究对海量的,多样化的观测、探测、调查、试验数据的依赖,迫切需要大量多学科、多来源、多类型、综合性地学数据资源的支撑[3]。而这些数据主要来源于地学领域的科学研究项目,广泛分布于高校、科研院所以及科学家个人手中。 面对这一需求,我国自2002年启动国家科学数据共享工程首批9个试点时,就设置了“地球系统科学数据共享服务网”试点项目,并于2005年转入国家科技基础条件平台建设。该网的总体目标是整合集成分布在国内外数据中心群、高等院校、科研院所和野外监测台站及科学家个人手中历史的、现状的和未来的科学研究产生的数据资源,接收国家重大科研项目产生的数据成果及引进国际数据资源,加工、生产满足人地系统及地球系统各圈层相互关系研究的专题数据集,建立分布式地球系统科学前沿研究与全球变化研究数据支撑平台[5-7]。经过近6年的建设发展,目前地球系统科学数据共享网正在向长期运行服务阶段转变。 本文正是结合国家科技基础条件平台——地球系统科学数据共享网的建设和发展过程,研究地球系统科学数据共享的标准规范体系的构建及其应用实践。 2 地球系统科学数据共享面临的标准规范问题分析 地球系统科学数据主要是来源于各类国家投入的地学领域的科研项目。此类数据不同于国家行业部门按照统一的制度、规范、标准长期采集和管理的科学数据,而是科学家根据研究需要,自主建立或整合的主要供本研究项目使用的综合性数据。 由于研究项目的数量众多,且每年都不断有新项目立项,持续积累的研究数据数量巨大,是重要的科技信息资源,受到国内外高度重视。2005年9月美国NSF发布了关于科学数据库的研究报告——《推动21世纪研究与教育的长期数字数据库》,该报告把科学数据分为三类,即研究型数据库、资源型数据库和参考型数据库[8]。 (1)研究型数据库是指某一个或者若干个固定的研究项目产生的数据集。这些数据集中的数据一般只经过有限的处理与管理,一般只为特定的研究群体服务。该类型数据库获得的资金资助较少,资助周期也较短,因而数据的标准化程度较低,数据的规模和覆盖的范围有限,数据可靠性稍差。 (2)参考型数据库旨在为大范围的科学与教育机构服务。这类数据库的典型特征是有一个大范围的、多样化的用户群体,包括来自于不同地域、不同学科、不同机构的科学家、学生、教育工作者。该类数据库遵照稳健和全面的数据标准为各类用户服务,经费预算通常很大,反映出其数据规模庞大和影响面广。它通常是由一个或多个机构提供长期的经费支持。典型的参考型数据库包括蛋白质数据库PDB、美国国立卫生研究院(NIH)的基因序列数据库GenBank等。 (3)资源型数据库是指那些服务于单一的科学与工程组织或者机构,其经费直接来源于相关的机构。通常该类数据库遵循一定的数据规范。地学、环境科学领域的资源型数据库隶属于某个数据中心(包括国家级的数据中心),能够对研究型、参考型数据库都提供支持。例如,美国国家航空航天局(NASA)的地球科学部的10个专业数据中心,多数都具备了资源型数据库和参考型数据库的特征。 地球系统科学数据属于典型的研究型数据。这类数据普遍分散在各个研究项目中,主要目的是为项目本身提供服务,标准化程度普遍较低。如果没有体系化的标准规范环境,大量的科学研究项目数据很难得以交换、共享和再利用。这一难点主要体现在以下3点:①如何汇集这些分散在各个项目中的研究数据。这个问题是共享机制问题,即分散数据资源共享需要建立什么样的共享模式。②如何在统一的元数据标准框架下集成和共享多学科数据。③如何面对众多科学研究者的需求,提供便于用户使用的数据目录。