面向信息检索系统的语义资源规划

作 者:

作者简介:
袁毓林,北京大学中文系教授。(北京 100871)

原文出处:
语言科学

内容提要:

本文通过分析问题回答等信息检索系统对于语义资源的需求,并借鉴国外语义资源建设的实践和经验,指出面向处理汉语的信息检索系统的语义资源,至少应该包括下列三种:1)汉语词网(CWN),提供基本的词汇概念及其关系信息;2)汉语谓词网(CVN),提供谓词的论元角色及其句法配置信息;3)汉语命题库(CPB),提供谓词的论元结构在真实文本中如何实现为命题结构的信息。还根据英语WordNet、VerbNet和PropBank的建设和应用情况,结合作者近年来学习语义学理论、研究和建设语义资源的实践和体会,分别说明这三种语义资源的设计目标、内容规模、体系结构和具体的建造策略与步骤等具体问题。


期刊代号:H1
分类名称:语言文字学
复印期号:2008 年 05 期

字号:

      1 问答等检索系统需要哪些语义资源

      问题回答(question answering)等信息检索系统如果想要有效地运作,那么就必须具有识别相似概念(similar concepts)和进行蕴涵推理(entailing inference)的能力。例如:(注:例(1)引自Palmer(2006a)和Loper et al.(2006),例(3)引自Pazienza et al.(2006)。)

      (1)a.Where are the grape arbors located?

      (1)b.Every path from back door to yard was covered by a grape-arbor,and every yard had fruit trees.

      (2)a.颐和园在哪儿?

      (2)b.颐和园坐落于北京大学的西面。

      (3)a.What country does Israel fear for its nuclear ability?

      (3)b.Iran scares Israel with its nuclear ability.

      (4)a.国家智能技术与系统实验室挂靠在什么单位?

      (4)b.清华大学计算机系设有国家智能技术与系统实验室。

      如果系统懂得“A在B”与“A坐落于B”同义、“A挂靠在B”蕴涵(entail)“B设有A”,那么就可以从文本中找到跟问句中的关键词虽然字面不同、但是意义相同的答句。

      要使系统具有识别相似概念和进行蕴涵推理的能力,必须为之配备相应的语义资源。在最低程度上,这种资源至少应该包括:1)汉语词网(Chinese WordNet,简称CWN),提供基本的词汇概念及其关系信息;2)汉语谓词网(Chinese VerbNet,简称CVN),提供谓词的论元角色及其句法配置信息;3)汉语命题库(Chinese PropBank,简称CPB),提供谓词的论元结构在真实文本中如何实现为命题结构的信息。

      2 CWN:汉语词义概念关系知识库

      CWN应该在普通语言学和认知心理学理论的指导下,为汉语的词义及其概念关系建立词汇知识数据库,它必须用一致的形式来为汉语的词汇知识建立模型。

      从功能上讲,CWN必须对于应用系统的词义消歧(word sense disambiguation)、相似概念识别、词义中所隐含的有关推论关系(reasoning inference)的自动发现等方面有实质性的贡献。这样的设计目标,决定了CWN的下列知识内容、规模和结构上的特点。

      从知识内容和规模上讲,英语的WordNet收录将近150,000个词,包括名词、动词、形容词和副词。相应地,汉语的CWN也至少要收录150,000个词,包括名词、方位词、时间词、处所词、数词、量词、数量词、动词、形容词、状态词、区别词、指代词和副词、连词、介词、助词、语气词、感叹词、拟声词等所有的词类。可资参照的是,中国社会科学院语言研究所编的《现代汉语词典》(第5版)收词约65,000条,正在编的《现代汉语大词典》计划收词约120,000条。如果加上网络等媒体上出现的新词新语,150,000个词这种规模可能比较合适。每一个词,都应按照义项(sense)注明其词类属性。

      从组织方式上讲,CWN跟WordNet一样,所有的词都按照其义项,以synset(同义词集合)的形式来组织。这样,一个多义词就按照其义项所代表的概念,在多个synset中出现。每一个synset表示一个词汇化的概念,这个概念由一组同义词和对这组同义词的解释来表达。还要表示不同的synset之间的几种基本的语义连接(semantic links)关系,比如:反义关系(antonymy)、上义—下义关系(hypernymy/hyponymy)、部分-整体关系(meronymy/holonymy)、蕴涵关系(entailment)和致使关系(causation)等。这样,就能以synset之间的各种关系所形成的网络的形式,来构建一个词库(lexicon)。(注:

      关于WordNet,详见Fellbaum(ed.)(1998);http://wordnet.princeton.edu/,http://www.cogsci.princeton.edu/~wn/。)并且,CWN的知识内容和体系结构的设计,还要考虑到跟某种本体知识(ontology)的相容和衔接;以便将来更好、更方便地为新一代的语义网(semantic web)技术服务。

      从实践上讲,董振东先生对知网(HowNet)的研制,为我们建设CWN提供了宝贵的经验和榜样。知网是一个以汉语和英语的词语所代表的概念为描述对象、以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。(注:关于HowNet,详见董振东、董强《知网》;http://www.keenage.com/zhiwang/c_zhiwang.html。)另外,台北中研院的双语知识词网(Sinica Bow),是一个本体知识和词汇知识相结合的数据库,可以为我们建设新一代基于汉语本体知识的词汇和概念关系知识库提供借鉴。(黄居仁2005)

相关文章: