1.广义知网的建构目标和特色 广义知网(E-HowNet)是一个事物和语意关联的架构(entity-relation model),以二元关系架构来表达词汇的语意。广义知网是以知网(Dong and Dong 2006)的架构为基础演化而来的,我们想利用这个语意表达的模型,达到可以自动化理解自然语言的目的。这里所指的可以“理解”一个句子,是表示能够将这个句子里的每一个概念以及概念之间的关联,没有歧义地指认出来,并且能够做出正确的推论,甚至适切地响应该句子。想要理解自然语言,计算机必须要知道句子之间的语意相关性及相似程度,于是需要建构一个符合下述特色的语意表达框架,才能落实自动化理解自然语言的目的。 (1)能辨认近义概念,并能计算两个概念之间的相似程度和语意距离。 (2)能知道两个概念之间的共同语意特征,并区别概念间的语意差异性。 (3)能提出每个概念的独特性,藉此,计算机可以辨识、存取与概念相关的知识。 (4)语意框架能反映语言的独特性质。 (5)根据框架中语意的概念特征继承性质,能够进行逻辑推论。 (6)能够有自动分解与合成语意的机制。 现今的本体知识架构,无法全面满足上述功能,并且也缺少将知网运用于语意合成的研究。因此,我们扩展知网原先的架构,建立广义知网。广义知网承袭了知网的基本架构,但实际用在定义词汇语意时,更加强了以语意框架为基础衍生出来的指称事物和语意关联的架构,我们希望能将此架构应用于语意合成和分解的处理上。自然语言理解的研究中,越抽象的议题则越难自动化且有系统地分析。在自动断词、自动语法剖析的研究都有了一定的成果后,我们也希望语意的研究能跟上前两者的脚步,让语言的分析能更向前迈一步。广义知网设计的目的,就是在这样的希求下,为了有系统地呈现词汇的语意,并且希望搭配语意合成的机制之后,能达到自然语言了解过程中语意理解的目标。基于以上的目标,广义知网有以下五点主要特色: 首先,词汇的语意皆以事物义原、基本概念及其间的关联来定义,以词汇语意的定义式来合成所有的短语或句子语意表达式。其次,实词和虚词的语意,皆有一致的表达方式,不需要另外的系统协助。再者,词汇语意定义时,义原之间的关联能完整而直接地呈现。承接上一点,语意中完整而直接的关联进一步使得广义知网具有语意合成与分解的机制。最后,所产生的词汇与词组语意表达式,皆有近乎标准且唯一的表达形式,这样语意的合成和分解可以在不同层次进行。 2.词汇的网络 现在有许多以词汇语意为出发点的网络,以供认知相关、计算机语言处理、翻译及其他研究应用,几个具代表性的词汇网络有,加州大学伯克利分校的框架网(FrameNet,Baker,et al.1998)、普林斯顿大学的词网(WordNet,Fellbaum 1998)和董振东的知网(HowNet,Dong and Dong 2006)等①。 框架网将一万个左右的词汇(其中歧义词视为不同的单位)详细地分析到八百个事件框架之中,并列举了核心或非核心的框架元素,也就是语意角色。事件的框架在框架网中有非常详细而清楚的定义,对于语意角色在句子结构里的不同呈现方式或配价表达(valences)也有许多讨论。然而框架网虽能厘清事件中的不同角色关系,却无法合成或分解语意。 词网将词义分于不同的同义词集合(synset),将名词、动词、形容词、副词依语法功用各自组成同义词集后,再界定同义词集之间的数种上下位关系。词网的架构亦为一本体知识,其架构表达了概念的上下位继承关系。词网有清楚明确的同义词集,也定义了同义词集间的多种关系,但是它在设计上摒除了虚词,如介系词和冠词等,缺少了语言表达中亦占有一席之地的功能词。同时也缺乏词汇在句子中使用的实际状况,只能理解语意,无法将语言重组表达。 知网是一个以常识为基础,从中英文的词汇里整理出基本概念,并将基本概念依据之间的关系建立索引架构的在线系统,每个概念都可以根据自己的定义和与其他概念的关联来定位。知网的词汇语意定义方式比词网同义词集间的多种特定关系提供了更多的语意讯息,字词间也可依据特征产生适当的关系。另外,相较于词网仅限于词汇的语意,知网的语意表达方式除了词汇,还可应用于词构的语意表达。由于知网具备以上这些特点,故能适用于电子辞典的编纂,或是如词汇相似度、机器翻译、信息检索等自然语言处理的应用研究(Veale 2005)。知网的基础哲学是事物一直在特定的时空中运作或有状态的变化,因此将架构分为万物(thing)、事件(event)、属性(attribute)、属性值(attribute-value)四支,这四个架构间的关系如下(Dong and Dong 2006):
图1中除了属性和属性值之间的明确关系外,我们同时看到万物是属性的主体(host),也是事件的语意角色(role),事件与属性值的关系则是描述事件的方法(manner)。知网的义原为语意的最小单位,而四个架构皆排列出其下义原之间适当的上下位阶关系,并以此来定义词汇,再加上语意角色和义原间次要关系的列表,于是词汇的语意便以妥善的方式呈现,也能以此计算出词汇的相似度等计算应用(刘群、李素建2002)。