文章编号:1000-0585(2009)05-1285-12 1 引言 目前,地球空间数据挖掘与知识发现成为摆脱地学专家系统局限新的研究思路,同时也成为地理信息系统空间分析的核心研究内容,代表了当今GIS发展方向[1]。不同的研究群体在概率论、空间统计、模糊集、规则归纳等数学理论的指导下尝试着采用和改进各种方法进行不同问题的空间分析、空间聚类和空间模式等研究。从该领域10多年发展看,挖掘方法上主要不断地吸收、借鉴或改进最新的各种数学工具以及计算智能领域新提出的各种方法;研究侧重点分方法本身的尝试与探索以及地学数据各种规律的挖掘。地学数据的空间数据挖掘一直是与人工智能、应用数学等的发展密不可分,交叉融合。 而基于案例的推理(Case-Based Reasoning,简称为CBR)作为一种传统人工智能领域基于相似性推理的方法从20世纪90年代起越来越受到重视[2]。CBR是突破知识获取局限新的人工智能(AI)方法,以案例进行问题组织,简单灵活易于扩充;且用以往经验进行相似问题求解提高了效率;同时成功案例的保存和再利用,又使它具备了不断学习和知识积累的能力;这些特点使得CBR具备了地学空间数据综合分析与推理的潜力。虽然从20世纪90年代中期开始,CBR就被用于地学空间问题的求解,也取得了一定得成效[3~9],但针对这些研究从地学空间数据挖掘角度中有效地采用CBR方法几乎没有涉及。虽然计算机领域曾有人把CBR方法看作是数据挖掘的方法之一,提出了CBR方法用于数据挖掘的两种思路,其一是把数据挖掘的搜索过程本身作为一个案例;其二是利用CBR为其他数据挖掘方法提供参数优化。但是面对复杂的地学问题,上述这两种交叉研究的方法还很笼统也不够深化,需要结合地学问题的特点进行细化和体系化。 因此,本文从方法论的角度探讨空间数据挖掘的CBR方法,研究采用地理案例对纷繁复杂、多尺度的地学现象进行组织与表达,并从GIS空间数据库转化成面向问题的地理案例数据库,抽取案例之间隐含的时空规律,从而进行地学问题推理与预测的模型与算法。 2 基于地理案例的空间数据挖掘方法体系 2.1 面向问题的地理案例界定与组织方法 “地理案例”作为一类特殊的“案例”,在以往的研究中给出过确切的定义,认为“地理案例首要条件是发生在特定的案例空间——地理空间,但必要条件为空间位置是最终引起案例间本质区别的一类特殊案例”[10]。由该定义不难看出,地理案例是对发生在地理空间中的地理现象或地学问题的一种组织或描述方式。 地理空间由于受自然地带性和地域分异规律的影响[11],导致发生在其间的各种地学现象呈现出十分复杂的状况;此外,由于人类认知的特性,导致同样的地学现象随着研究目的、研究方法和研究视角的不同,发生了很大的差异,得出的结论也截然不同。因此,采用CBR方法进行空间数据定量分析时,面向问题的、灵活的地理案例界定和组织方法成为CBR数据挖掘的前提。 目前CBR方法应用于地学领域时,对“地理案例”的表达遵循传统的“问题—结果”模式[12~16],“问题”中仅包含先验的简单空间信息,未充分考虑地学现象和周边环境以及地学现象之间的空间关系,也就无法进一步表达地理案例的复杂特性。同时“结果”并不含有空间信息,极大地限制了“地理案例”的空间推理能力。由此可知,案例的界定和表达不仅要考虑案例自身的各项属性,还要充分考虑到案例所在的地理环境要素的影响,同时还需要明确案例所反映的地学问题的认知视角和尺度。 本文进一步定义地理案例为:某一时刻以及某一时间段内在特定地域上发生的一个地学现象,也就是由一组包含空间信息的案例特征及一组描述环境变量空间分布的栅格或者矢量数据和一个案例解决方案(空间或非空间的)“问题—地理环境—结果”。采用“问题—地理环境—结果”的概念模式,不仅增加了“地理环境”这个空间描述部分以表达地理案例中内蕴的空间信息,同时也将“结果”拓展到空间领域,以实现地理案例的空间推理能力。 具体进行地理案例界定和表达时,首先针对应用问题明确“问题—地理环境—结果”各自内涵。其次,针对问题,结合GIS空间数据库中空间要素的主要数据模型(矢量数据、栅格数据),进行具体地理案例表达模型建立,由于到目前大部分环境空间变量来自于遥感及其反演的数据,多以栅格数据形式出现,因此,这里主要讨论基于栅格数据的地理案例表达模型。具体模型见图1,图中S代表研究区的空间域(指一个二维空间);P代表一种地学现象(问题),PS[2]为空间现象的空间域,包含在S域中;E为地学现象所在的环境要素场的集合,由多个不同变量的环境要素场(E[,K])共同组成;R为对应的地学现象(问题)的“结果”描述。在此分别针对文中所提到的两大类地学问题进行具体描述。这种表达模型,既能从问题的角度明确界定地理案例,同时又能与GIS的空间数据库衔接,从GIS的空间数据库中按照一定的规则和界定自动生成案例。