中文信息处理专题研究:语义研究

——一个在线义类词库:词网WordNet

作 者:

作者简介:
陈群秀 清华大学计算机系智能技术与系统国家重点实验室,邮编:100084

原文出处:
语言文字应用

内容提要:

计算机的自然语言理解和处理,依赖于计算语言学的研究成果。与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。词汇义的研究和表示的方法有多种,很重要的一种是语义分类。人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。本文简要介绍这个在线的义类词库。


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 08 期

关 键 词:

字号:

      一 词网WordNet的概况

      WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。有两种关系:词汇的和语义的。词汇关系存在于词形间,语义关系存在于词义间。通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。WordNet则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。WordNet目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。有一些国家将WordNet进行了本地化。

      WordNet和一个标准的词典之间的最明显的区别就在于WordNet将所有英语词汇分成五类:名词、动词、形容词、副词和功能词。实际上,WordNet只包含名词、动词、形容词和副词。相对来说较小的英语功能词集被省略掉了,这是基于它们可能被作为语言的语法成分的一部分单独存放的假设。名词在词汇记忆中被组织成主题的层次,动词被组织成各种推演(蕴涵)关系,而形容词和副词被组织在N维超空间中。

      然而,WordNet最雄心勃勃的特点在于它试图以词义而不是词形来组织词汇信息。从这个角度来说,WordNet更像一部同义词汇编(thes-aurus,义类体系),而不是一部词典。但是WordNet并不仅仅是一部在线的同义词汇编,它包含同义、反义、上下位义、整体部分义等多种语义关系的描写,对英语单词的多义也想方设法予以表示,另外,它也能处理英语词形的曲折形态。

      在词汇语义学的理论中,如何用定义来表示词语化的概念,取决于该理论是打算成为构造性的还是仅仅是区分性的。对区分性的理论的要求比较低,但也足以构造出所需的映射。如果阅读该定义的人已经获得了该概念,仅仅需要辨认它,那用一个同义词(或近义词)通常就足够了。例如,某人已经知道board可以指称一片木材或是一群为了某个目的集合起来的人,只需要得到plank或committee的帮助就可以挑出原义。同义词集{board,plank(板材)}和{board,committee(委员会)}可以作为board这两个义项的无歧义的指示器。WordNet是用区分性理论来表示词义的。由于英语中同义词很多,synsets通常足以用来作区分的目的。但有时候,找不到一个合适的同义词,例如,board的另一个义项是“包伙食”,这时WordNet用一个很短的注释来解决这个多义问题,如{board,(包伙食,即定时提供一个人的三餐以赚钱}可以用来区分board的这一意思,它可以被看成一个只有一个成员的synsets。

      同义当然是词形之间的词汇关系,但是由于它在WordNet中扮演了中心角色,故特用{和}括起有同义关系的记号以区别于用[和]括起来的其他词汇关系。WordNet中最重要的关系是同义关系,而且是一种定义较弱的同义关系。根据一个定义(Leibniz)两个表达式同义,是说用一个去替换另外一个绝不会改变句子的真值。根据这个定义,真正的同义词即使存在也很少。这个定义的一个较弱版本是将同义关系和上下文C联系起来,如果在C中将一个换成另一个不会改变句子真值,那么这个表达式是同义的。例如,在“木工”的上下文中将board替换成plank,基本上不会改变真值,尽管在board的另一些上下文中进行这样的替换将是完全不合适的。

      另一个大家熟悉的关系是反义关系。令人吃惊的是它非常难以定义。比如说,“贫穷”和“富裕”是反义词,但是说一个人不富裕并不代表他一定贫穷。看起来仿佛非常简单的对称关系的反义关系实际上相当复杂。反义关系是一种词形间的词汇关系,而不是词义间的语义关系。反义关系为WordNet中的形容词和副词提供了一个中心组织原则。

      与属于词形间的词汇关系的同义和反义不同。下位/上位是一个词义间的语义关系:例如,{maple(枫树)}是{tree(树)}的一个下位义,而{tree(树)}是{plant(植物)}的一个下位义。下位/上位(或称子类/上类,子集/超集,或ISA关系)引起了很多注意。下位关系是可传递的,反对称的,而且由于一群相关下位义通常只有一个上位义,便产生了一个分层次的语义结构,其中任意一个下位义均位于它的上位义之下。在信息检索系统中广泛使用这种层次表示法,它们被称为继承系统:一个下位义从比自己更为一般的(上位)概念处继承所有的特征,并且至少加上一个特征,以便和自己的上位义及该上位义的所有其他下位义区分开来。这个约定为WordNet中的名词提供了中心的组织原则。

      另一种为人们所熟悉的语义关系是部分—整体关系,词汇语义学家将它称为部分义/整体义。部分义关系是传递的(有限制)和反对称的,而且可以用来构造一个整体/部分层次体系(有一些保留,因为一个部分义可以有多个整体义)。这就是说,部分可以再有部分:手指是手的一部分,手是手臂的一部分,手臂是身体的一部分。与同义、反义、以及下位义类似,这个关系有一个逆表述:如果Wm是Wh的一个部分义(用#表示),则说Wh是Wm的一个整体义(用%表示)。部分义是下位义可以继承的区别性特征。因此,部分义和下位义以复杂的形式互相缠绕。

相关文章: