中文信息处理专题研究:语义研究

——一个面向工程的语义分析体系

作 者:

作者简介:
陈小荷 北京语言文化大学语言信息处理研究所,邮编:100083

原文出处:
语言文字应用

内容提要:

各种基于理解的语言工程都迫切需要语义知识的支持。本文介绍“八五”国家重点科研项目“中文信息处理应用平台工程”的语义分析体系(它的设计思想、基本结构、基本方法和应用范围),并对该体系的进一步完善提出一些设想。


期刊代号:H1
分类名称:语言文字学
复印期号:1998 年 08 期

关 键 词:

字号:

      一

      自然语言理解,归根结底是语义理解。句法分析只是一种手段,目的还是理解句子的意思,理解了句子,才有可能达到对篇章和语用的理解。因此,语义分析在自然语言理解中占据中心地位。

      哲学、逻辑学、心理学和语言学等许多学科都关注语义问题。计算语言学工作者主要从语言工程的实践中感受到语义分析的迫切需要。面对计算机网络上浩如烟海的文字信息,如何全面、准确、快速地检索出我们所需要的文献,或得到一定比例的摘要,如何有效地隔离各种有害信息,这些工作虽然可以仅用统计方法和一些较低层面上的语言学知识取得一定的成果,但是要想使处理系统既有计算机的速度又具备人类的智能,就不能没有一定深度的语义分析。

      在汉语的自动分词、自动标注词性过程中,为了不陷入“需求循环”的窘境,(注:例如,自动分词需要语义分析的支持,但是语义分析至少要在正确的自动分词基础上才能进行。解决办法之一是在自动分词阶段保留若干个最佳的切分结果,等到句法分析和语义分析等较高的处理阶段再根据高层面的语言学知识加以选择。)只能暂时避开语义分析,主要使用统计方法和一些较低层面上的语言学知识,得到了90%以上的正确率。仔细分析起来,这个结果并不十分令人满意。拿自动分词来说,如果以句子为单位来计算,即使较好地处理了人名、地名和交集型歧义切分问题,正确率一般也只能达到大约50%,剩下的问题只有在句法、语义分析阶段才有望彻底解决。(注:作者做过这方面的实验,主要问题是,组合型歧义切分问题(如“将来”“只有”在特定的上下文中该不该切开)、未登录的普通名词问题(包括新词和科技术语等)。)

      在没有语义支持的情况下,自动句法分析更是寸步难行。如果只根据词性标记来判断,结构关系歧义和结构层次歧义纷繁复杂,各种可能的分析树的数量按几何级数增长。语言学家看到的只是“咬死了猎人的狗”之类的结构歧义,在计算机看来,连“提高文化水平”这样的短语也充满了歧义:动词“提高”是述语还是修饰语?(汉语有些动词可直接修饰名词)如果是述语,宾语是“文化”还是“文化水平”?假如“文化水平”是一个组合,它们之间是修饰关系、并列关系还是主谓关系?(汉语里名词在一定条件下可以做谓语)事实上,当用"VNN"词性序列来代替这个短语时,人所能做的句法分析也并不比机器高明。

      由于语义分析在语言工程中的关键作用,因此,1990年5月开始实施的“八五”国家重点科研项目“中文信息处理应用平台工程”(简称“九○五工程”)的第一个目标是:开发一个通用的、大型的信息处理用的汉语词语信息库。它包括语法词典、语义体系和语义词典,以及运动类概念格关系框架和语义约束。(注:陈力为、袁琦主编《“八五”国家重点科研成果论文集中文信息处理应用平台工程》,电子工业出版社,1995。)

      本文打算介绍这个项目中的语义分析体系的设计思想、基本结构、基本方法和应用范围,并对该体系的进一步完善提出一些设想。实施之前,该项目的一些参加人员已经在信息处理用的汉语语义分析方面做了许多工作。例如,董振东对运动类概念分类体系的研究,黄昌宁基于情境语义学理论而提出的关于语义辞典构造的设想,鲁川对汉语谓词格框架的研究,等等。他们的这些研究为该项目的语义分析体系的建造提供了一定的基础。项目实施过程中,陈力为、黄昌宁、董振东、张普、贾彦德、常宝儒、陈群秀等对语义分析体系的构造提出了许多宝贵的指导性意见。

      该项目实施前,英语词网WordNet尚未研制完成和发布,因此“九○五工程”的语义分析体系的建造完全没有参照WordNet。但是从结果来看,这两个体系在基本结构、建造方法上有许多相同或相似之处,可以将它们做一些比较。

      二

      “九○五工程”语义分析体系有一个语义分类,把所有适合于进行语义描写的词语分为事物类(下分事类和物类,物类又分为具体物和抽象物)、运动类(大致相当于语法上的谓词)、时空类(下分时间类和空间类)和属性类(区分属性域和属性值)四个大类。这个分类是基于一种哲学信念:世界上的一切事物都在一定的时间和空间中运动着,事物的运动和运动着的事物都有其属性,运动的结果是改变事物的某些属性。这四个大类中,运动类的语义分析由河南财经学院承担,其余三个大类的语义分析由北京语言文化大学承担。

      这个体系的设计思想:第一,它的基本目标是为汉语信息处理的各种工程提供语义知识的支持,其直接目的是为自动句法分析服务,因为自动句法分析是大规模真实文本处理的一项关键性技术,而且对语义知识的需求也最为迫切。立足于现有的理论基础,汉语信息处理采取先句法分析后语义分析或两者并行的步骤可行性较大,完全绕开句法分析这一关是不现实的。因此我们在设计语义分析体系时首先考虑的就是尽可能满足自动句法分析的需要。另一方面,也要充分考虑将来对大规模真实文本进行义项标注和对句子、篇章做语义结构分析甚至语用分析时需要哪些语义知识。

      第二,从工程实用目的出发,选择了格语法和语义场理论作为语义分析的理论框架。我们用义素分析法来分析聚合型语义关系,分析对象主要是事物类和时空类词语;用格语法的思想来分析组合型语义关系,分析对象主要是运动类和属性类词语,也包括许多涉及组合型语义关系的事物类、时空类词语。(注:组合型语义关系是指词义之间的相互依存关系,在这种依存关系中,往往有一个词义居于中心地位,对其他词义有组配要求。通常说的动词配价、名词配价就反映了这种关系。但是这种关系既可以是动态地表现在句子之中,也可以是静态地存在于那个居于中心地位的词义之中。格语法本来只用来描写动词,我们还尝试把这一思想和方法运用于形容词、属性名词的语义分析之中。)

相关文章: