一、文本蕴涵及其在信息处理中的应用 在自然语言中,一种突出的现象是语义表达形式的多样性(semantic variability),即相同的意义可以用不同的形式来表达,或者从不同的文本中推断出来。例如:① (1)a.What annoyed me was his hypocrisy. 使我感到讨厌的是他的虚伪。 b.It was his hypocrisy that annoyed me. 正是他的虚伪使我感到讨厌。 (2)a.He married a blonde heiress. 他跟一个金发女继承人结婚。 b.He married a blonde. 他跟一个金发女郎结婚。 例(1)中a和b两个语言形式表达基本相同的意义,即它们之间具有同义互释关系(paraphrase);例(2)中b的意思可以从a中推断出来,即它们之间具有蕴涵关系(entailment)。为了方便,可以把这些不同文本之间的同义和蕴涵关系统称为文本蕴涵(textual entailment)。 关于文本蕴涵的知识对于鲁棒性的(robust)语言处理应用,十分必要;诸如信息检索、问题回答、信息抽取、自动文摘和机器翻译等,必须识别那些表达了有关输入(比如,查询、问题等)和所需的输出(比如,目标、回答)的多样化的表达形式。于是,需要为语言中的语义表达形式的多样性建立模型,以便应用系统能够识别一个特定的目标意义,将其从不同的文本变异形式中推断出来。但是,由于目前语言理论和计算技术的限制,这种模型只能在浅层的语义平面上建立。比如,用户向问答系统提交的问题是: (3)俄罗斯有多少枚导弹? 我们希望问答系统通过模板匹配和数据库检索等后台操作,给出理想的回答: (4)俄罗斯有XXX枚导弹。 但是,问答系统后台存储的目标文档中,可能恰恰没有这种形式的句子;倒是可能有跟(4)同义的其他词汇—句法形式的句子: (5)俄罗斯暗藏了XXX枚导弹。 (6)俄罗斯保留了XXX枚导弹。 (7)俄罗斯配备了XXX枚导弹。 (8)俄罗斯保存着XXX枚导弹。 显然,(5)一(8)这类句子蕴涵了()这类句子的意义,它们中的任何一句都可以是问句(3)的合适的、令用户满意的答句。解决问题的关键是,问答系统必须具备发现(5)—(8)跟(4)这两类句子间存在蕴涵关系的能力。 可见,文本蕴涵研究不仅具有语言学和逻辑学上的理论意义,而且具有语言信息处理上的应用价值。通过为不同的语言表达形式之间的蕴涵关系建立通用的模型,指定一个语言表达形式的意义可以从另一个语言表达形式中推断出来的条件,来发展一种识别语言表达多样性的技术路线,从而为上述多种语言处理应用服务。正是着眼于此,我们开展了面向计算的汉语动词蕴涵型式库的研究和建设。 二、研究目标和理论背景 (一)目标与方法 本文拟解决的关键问题是:在语义计算和语义推理的过程中,涉及对作为核心的谓词性成分之间的语义蕴涵关系及其类型和规则集合的发现。研究重点是语义推理知识库的构建,特别是基于动词语义角色框架库的蕴涵型式库的建设。因此,我们的研究目标是: 其一,建立动词之间的蕴涵关系:在充分利用已经建设成的谓词一论元结构知识库的基础之上,立足于词汇层面,以动词为核心,分别语义情境类型,以控制问题的规模;通过浅层的句法—语义分析,把句子之间的蕴涵关系简化和落实为句子中谓词之间的蕴涵关系(暂时不考虑论元之间的蕴涵关系);发现一对/组看上去是描述大致相同的事实的相匹配的文本片段,并找出共同的论元性词语作为“支撑点”(anchors),来发现动词之间的蕴涵关系;②同时还注意到被蕴涵(entailed)动词和主蕴涵(entailing)动词前后的时体成分,比如“配备了
拥有”。通过上述方法可在汉语10000多个动词间建立蕴涵关系,表示为形如“A
B”的蕴涵式,例如“包办
办理,毙命
死亡,病故
死亡”。 其二,给已经发现的蕴涵关系建立数据库:以被蕴涵动词为纲,为已经发现的5000余个蕴涵式建立蕴涵型式知识库;其中,一个被蕴涵动词可能对应多个主蕴涵动词。 其三,使数据库为自然语言处理提供可供参考与使用的资源:建立起来的数据库具有多种查询功能,包含的信息内容较多,可以为语言信息处理和语言研究与教学提供较有价值的参考。 本文的研究方法和技术路线是:充分利用汉语配价语法的研究成果,在论元结构理论和词汇语义学的指导下,运用数理逻辑和形式语义学提供的各种技术手段,来发现与谓词的语义相关的各种文本蕴涵的类型和有关规则,建立起汉语常用动词的蕴涵型式库及其相应的规则集合,从而为文本的语义推理提供动词语义方面的知识库资源。为此,本文参考了逻辑学上的蕴涵理论、语义学上的衍推理论以及近年来在自然语言处理学界兴起的文本蕴涵理论;已建的动词蕴涵型式库还包含了主蕴涵词的论元结构信息和被蕴涵词的论元结构信息,因此也参考了配价语法理论和论元结构理论的相关内容。