面向中文信息处理的“n+n+n”结构句法功能歧义问题研究

作 者:

作者简介:
杨泉,女,北京师范大学汉语文化学院讲师,主要从事计算语言学及对外汉语教学研究,(北京 100875); 冯志伟,教育部语言文字应用研究所研究员,博士生导师,主要从事计算语言学研究(北京 100010)。

原文出处:
汉语学习

内容提要:

本文在潜在歧义理论的基础上,分析了三项名词同类词短语中三个名词的语法、语义、语用特性,对汉语中的“n+n+n”结构做了比较全面的研究,目的在于找出这种结构产生句法功能歧义的原因和消解这种歧义的策略。


期刊代号:H1
分类名称:语言文字学
复印期号:2009 年 04 期

字号:

      §0 引言

      歧义问题一直是计算语言学及语言学本体中的研究热点,国外计算语言学界对歧义结构的研究重点主要在于机器自动消解结构歧义的理论和方法。在搜索策略的安排上,国外的方法大概经历了从不可回溯到可回溯再到确定性的不可回溯的方法。在具体的消歧方法上运用统计或规则的方法,统计方法在当今计算语言学界应用得非常广泛,用于许多机器翻译系统中确实可以解决很多问题,但对于许多数据稀疏现象却无能为力,本文所涉猎的实例真歧义短语恰恰属于这类稀疏现象,而且中文信息处理有其自身的特殊性,不能直接照搬国外的理论和方法,因此我们还是以规则的方法为主,采用选择限制和语义层级体系(参见杨泉、冯志伟2005)相结合的办法,尽量找到一种可供计算机直接操作的消歧方法。当然,我们并不排斥统计的方法,如果能够找到可与本文研究的方法完美结合的统计方法,我们会考虑兼容并蓄。

      §1 研究概况

      语言学界研究歧义主要是为了找出人与人在交际过程中产生歧义的原因及歧义的全部类型;而计算语言学家的任务则是在语言学专家研究成果的基础上,考察机器在处理自然语言的过程中产生歧义的原因及自动消解歧义的办法,对于中文信息处理来说包括歧义字段切分、多义词义项选择、歧义格式分化等。本文以“n+n+n”这种同类词短语①为切入点,重点研究如何让计算机自动消解同类词短语中的句法功能歧义。

      §2 研究基础

      2.1 词条确定依据

      由北京大学计算语言所开发的WinST系统(Chinese Segmentation and Tagging System for Win32)的词典收录词条较为全面,词条确立标准比较统一,适合语言工程研究者使用,我们把它作为确立词条的标准,这部词典包括六个部分:

      UsrLexl②为用户词典1,收入用户定义的人名;

      UsrLex2:用户词典2,收入用户定义的地名;

      UsrLex3:用户词典3,收入用户定义的机构、团体名;

      UsrLex4:用户词典4,收入用户定义的其它所有专有名词;

      UsrLex5:用户词典5,收入用户定义的其它普通名词和缩略语(n、j);

      UsrLex6:用户词典6,收入用户定义的其它类别的词(a、v、…)。

      2.2 语料切分标注工具

      Bbibst:全称Beijng Broadcasting Institute Basic Segmentation Tagging,它是中国传媒大学应用语言学系在北京大学开发软件Bst(Basic Segmentation Tagging)的基础上进一步研制开发的结果,可以对生语料进行切分和标注。运用Bbibst对生语料切分标注后,就可以运用CRS对熟语料进行检索从而得到我们需要的语料。

      2.3 语料检索工具③

      CRS全称Corpus Retrieve System,是中国传媒大学应用语言学系开发的语料检索工具。它可以对熟语料进行检索和提取,其最大的优势在于可以一次性自动检索出三元或三元以上的字串、词串、词属性串及词与词属性的混合串,省去了浩繁的人工二次检索过程,给语料处理带来了很大方便。

      2.4 语料来源

      本文共收集语料100万字,其中教材类、小说类、传记类、杂志类语料来源于亦凡公益图书馆(网址为:http://www.shuku.net)。电视新闻类语料来自中国传媒大学应用语言学系侯敏教授主持开发的传媒语言语料库。

      2.5 语义分类体系④

      ONTOL-MT是冯志伟在日汉机器翻译的研究中设计的一个通用知识本体⑤。

      2.6 形式化工具⑥

      CTT全称Copenhagen Tree Tracer(即哥本哈根句法树跟踪显示程序,简称CTT),CTT是丹麦哥本哈根商学院计算语言学系开发并维护的,是一种自然语言处理程序的图形接口软件(网址是:http://www.id.cbs.dk/~mtk/ctt)。

      PATR,PATR是CTT的内置形式化体系,它是一种基于合一的语法,可以把我们的词典及规则库中的信息按照这种语法的格式改写后让机器理解,再通过CTT画出图来。

      在PATR形式化体系中,特征结构由特征值偶对的集合构成,其中每一个特征都对应一个值。如果“FS”是一个特征结构,就用“FS>>syn”表示特征“syn”的值,即语法的特征,用“FS>>syn..cat”表示“FS>>syn”的“cat”值,即“FS>>syn”的范畴值。符号“===”被用来表示两个特征结构、变量或Prolog项的联合。如果两个结构不兼容则联合失败。例如,“np=s”失败的原因在于“np”和“s”表示的结构是不兼容的;“Cat===s”和“s===Cat”成功的理由是“Cat”被实例化为“s”;而“Cat1===Cat2”中的“Cat1”和“Cat2”将被设置为同一个没有实例化的Prolog变量;“FS>>cat===np”的含义是把F3中的“eat”特征设成了“np”。

      2.7 理论基础

      本文在潜在歧义理论⑦研究的基础上发现,一个短语实例化后,在句法功能方面可能产生歧义,也可能不产生歧义,因此我们把实例化后的短语分为以下两种类型。

      2.7.1 格式真歧义短语

相关文章: