文章编号:1000-0585(2009)03-0696-09 1 引言 空间数据集成是将具有某种或多种异质性的数据集通过重新建模整合到统一框架下的过程。空间数据集之间存在的语法、模式和语义异质性[1],相应的存在3个层次,即语法、模式和语义层次上的空间数据集成。早期空间数据集成研究受系统数据结构和逻辑模型不同的驱使,集中在语法和模式层次上,发展了数据转换、互操作和直接访问3种语法集成方法[2~5]及半自动模式集成方法[6]。这些语法和模式集成方法只解决了数据“如何表达”,即表达形式的集成,但数据用户更关心数据“表达的是什么”即数据语义,以满足其应用需要。因此,从数据应用角度出发,数据语义的集成是空间数据集成一个更加重要、不可或缺的部分。 意识到其重要性,空间数据语义集成已成为GIS界的一个研究热点,并提出了一些形式化语义表达与集成方法,如形式化数据结构扩展模型的语义描述符和数据/知识包(data/knowledge packets)结构及代理语境(proxy context)和代理类[6]。这些方法在一定程度上解决了空间数据的语义集成,但还存在一些不足,如语义描述冗余、语义共享与重用困难、语义表达不完整、自动推理和集成能力弱,等。为此,本体作为“共享概念模型的明确的形式化规范说明”,已在信息领域的语义集成研究中得到了广泛应用[7,8],在空间数据组织[9]及空间数据集成研究领域也开始受到关注[10~12],并被证明能有效地形式化表达数据语义和实现半自动、自动语义集成。但已有研究侧重于本体应用于语义共享的理论框架探索,而具体将地理本体应用于空间数据集成、语义互操作的研究相对较少。为此,本文在语义共享大前提下,探索地理本体用于空间数据集成的具体方法,并设计开发了地理本体建模工具和空间数据集成原型系统,实现了空间数据及其语义的自动、半自动集成。 2 基于地理本体的空间数据集成原理 2.1 地理本体及其构成 关于本体定义,学者们从不同角度提出了不同看法[13,14],较流行的是“共享概念模型的明确的形式化规范说明”。从数据集成角度看,我们认为本体是一个与数据库模式、知识库、语义、元数据和分类体系既有区别又有联系的概念,而地理本体具有区别于一般本体的空间和时态特征,是一种更复杂的本体,是特定地理空间信息领域概念化模型或学科感知世界的明确的形式化规范说明,并提出了图1所示的地理本体“四元组”构成模型[15]。 在地理本体四元组构成模型中,地理本体由地理概念及其之间的语义和空间关系、地理概念实例和地理公理四个元组构成,其中地理概念与地理关系及由此构成的地理概念等级体系是地理本体的主轴,其他构成要素为其副轴。地理概念由概念名、内涵、外延、自然语言定义和标识码五个元素描述,其中概念内涵是确定概念之间语义关系的决定性元素,可根据概念内涵关系确定不同地理本体中各概念的语义关系,从而实现地理本体集成。
图1 地理本体的“四元组”构成模型 Fig.1 Four components of geo-ontology and their relationships
图2 本体、数据及其在集成中的关系 Fig.2 Ontologies,data and their relationships in data integration based on geo-ontologies 2.2 基于地理本体的空间数据集成 在一般信息本体及基于本体的一般数据集成方法基础上,地理信息科学研究者发展了基于地理本体的空间数据集成方法[16]。由于地理本体具有区别于一般本体的空间和时态特征,而空间数据与非空间数据也存在根本区别,前者同时具有空间和属性特征,后者只有属性特征,因此,与基于一般本体的非空间数据集成方法不涉及任何空间操作、只是数据对象属性类型的简单改变或重归类不同,基于地理本体的空间数据集成方法不仅需要按地理本体集成所构建的对象类映射关系对空间对象的属性特征进行重新归类,还需要对空间对象本身进行融合或分割,即需要对地理空间进行重新划分而生成新的空间对象。 基于地理本体的空间数据集成方法的基本思路是通过待集成的数据源对应的地理本体之间的集成间接地实现数据的集成。目前,地理本体的集成一般采用形式化概念分析方法,即通过语义因子分解和建立概念格(Concept Lattice)来集成不同地理本体,得到集成的概念格,例如,有学者以基于土地利用/土地覆盖分类系统的两个本体为例,说明了应用形式化概念分析和概念格形式化表达地理类型及集成不同地理本体的具体方法[17]。