1.0 引言 信息是信息处理的基础。处理信息的前提是首先要拥有信息。信息可以是简单的,如带有词类信息的词库,信息也可以是复杂的,如世界知识的形式化描述。(冯志伟,2001) 有了这样的信息,在知识的基础上,我们就可以总结特征,预测结果,进行推理,设计决策系统等等。(Hallig & von Wortburg,1963) 下面是一个经典的例子。在这个例子中,根据我们的世界知识,可以对with介词短语得出完全不同的理解(with介词短语可以是宾语的修饰语,也可以是中心谓语动词的方式状语)。这个问题叫做PP附着问题(PP-attachment)。 I saw a man with a binocular. (“我用望远镜看一个人”,“我看见一个带着望远镜的人”) I saw a star with a telescope. (“我用天文望远镜看一颗星星”) I saw a molecule with a microscope. (“我用显微镜看一个分子”) 为了正确地分析这样的句子并理解其意义,人们需要各种有关大小、轻重、形状、体积、目的等方面的知识。 例如,在句子I saw a star with a telescope中,with a telescope可能做saw的状语,也可能做star的定语,根据常识,star是不能带有telescope的。因此,with a telescope做star的定语不符合常识,而with a telescope做saw的状语在常识上却是行得通的。因此,这个句子的意思是“我用天文望远镜看一颗星星”,而不是“我看一颗带有天文望远镜的星星”。在句子I saw a man with a binocular中,根据常识,with a binocular可以修饰saw,做saw的状语,也可以修饰man,做man的定语,因此,这个句子是有歧义的,它的意思可能是“我用望远镜看一个人”,也可能是“我看见一个带着望远镜的人”。 为了进行此类常识性的推理,人们必须有相关知识储备,这就是我们所说的知识本体(ontology)。 如果这样的知识本体具有较强的语言学特点,如词类信息、单词的语义信息等,我们就往往把它们称之为“词汇知识库”(Lexical Knowledge Base)。当然,词汇知识库和知识本体并不是完全等同的,不过,它们所包含的信息有相当大一部分是相互重叠的。(冯志伟,2005) 知识本体究竟是什么?从总体上看,知识本体是对某一个领域内各种对象、过程以及它们之间相互关系的详细说明。但是,不同的学科对此有不同的处理方式。 本文将从哲学、计算机科学、语言学和情报学四个不同的角度来看知识本体,并讨论知识本体在自然语言处理中的应用。 2.0从不同角度看知识本体 语言在本质上是模糊的,因此,我们需要借助共享知识来补全语言中缺失的信息或校正歪曲的信息。自然语言处理技术力图借助于人类世界知识中很小的一部分来理解语言中包含的简洁、模糊、含蓄的信息,这就是结构化的知识本体在自然语言处理中所要扮演的角色。一般来说,以语义为基础的自然语言处理技术并不等同于完全的自然语言理解。 词汇和它们所指代的对象之间的关系往往是非常复杂的。很多词可以指代明确的对象(如ship,vessel,wreck或者mother,sister,boss,wife,woman,granny)。同时也有某些对象并不能用一个单独的词来指代(如handbook of computational linguistics)。在一般情况下,我们把词看作是范畴类型,用词来给对象进行分类。 根据不同的目的,人们在建立知识本体时对词或概念的侧重会有所不同,这意味着人们建立知识本体会遵循几个不同的传统: (a)哲学的传统:从逻辑和哲学的角度将对象进行分类。 (b)计算机科学的传统:从人类信息处理和推演机制将对象进行分类。 (c)语言学的传统:从概念单元的角度对词汇进行分类。 (d)文献情报学的传统:按照主题对信息进行分类以便于检索信息。 这些传统催生了不同类型的知识本体: (a)形式化的知识本体; (b)概念网络和概念框架; (c)概念词库和同义词词典; (d)分类主题词表。 3.0从哲学看知识本体 知识本体是语言概念知识系统的、科学的描述方法,它与自然语言的词汇系统有着非常密切的关系。(Berrey,1962) 如果我们对于一个领域中的客体进行分析,找出这些客体之间的关系,获得了这个领域中不同客体的集合,这一个集合可以明确地、形式化地、可共享地描述这个领域中各个客体所代表的概念的体系,它实际上就是概念体系的规范,这样的概念体系规范就可以看成这个领域的“知识本体”。(Gómez-Pérez,et al.,2004)