自然语言处理技术的三个里程碑

作 者:

作者简介:
黄昌宁,张小凤,微软亚洲研究院 通讯地址:100080 北京知春路49号希格玛中心五层微软亚洲研究院〈cnhuang@microsoft.com〉

原文出处:
外语教学与研究

内容提要:

半世纪以来自然语言处理(NLP )研究取得两点重要认识和三大重要成果,即认识到:(1)对于句法分析, 基于单一标记的短语结构规则是不充分的;(2)短语结构规则在真实文本中的分布呈现严重扭曲。 换言之,有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先的预期大相径庭。NLP 技术的发展在很大程度上受到这两个事实的影响。从这个意义上说, 本领域中称得上里程碑式的成果是:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;(3)语料库方法和统计语言模型。大规模语言知识的开发和自动获取是NLP 技术的瓶颈问题。因此,语料库建设和统计学理论将成为该领域中的关键课题。


期刊代号:H1
分类名称:语言文字学
复印期号:2002 年 09 期

字号:

      [中图分类号]H087 [文献标识码]A [文章编号]1000-0429(2002)03-0180-8

      1. 引言

      从50年代的机器翻译和人工智能研究算起,NLP(Natural Language Processing,自然语言处理)已有长达半个世纪的历史。 在这个进程中,学术界曾提出许多重要的理论和方法,取得了丰富的成果。笔者认为,近二十年在这一领域中堪称里程碑式的贡献有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;( 3)语料库方法和统计语言模型。这三个成果将继续对语言学、计算语言学和NLP研究产生深远影响。为了更好地理解这些成果的意义, 先介绍与此相关的两个事实。

      2. 两个事实

      2.1 事实之一——短语结构语法不能有效地描写自然语言

      在自然语言处理中,为了识别一个输入句子的句法结构,首先要把句子中的词一个一个地切分出来,然后去查词典,给句子中的每个词指派一个合适的词性(part of speech);之后再用句法规则把句子里包含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。进而判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。这就是一个句法分析的全过程。

      本文要提到的第一个事实是:短语结构语法(Phrase Structure Grammar,简称PSG)不能有效地描写自然语言。PSG在Chomsky语言学理论中占有重要地位,并且在自然语言的句法描写中担当举足轻重的角色。但是它有一些根本性的弱点,主要表现为,它使用的是像词类和短语类那样的单一标记,因而不能有效地指明和解释自然语言中的结构歧义问题。请看汉语中“V+N”组合。假如我们把“打击、委托、调查”等词指派为动词(V);把“力度、方式、盗版、 甲方”等词视为名词(N),并同意“打击力度”、“委托方式”是名词短语(NP), “打击盗版”、“委托甲方”是动词短语(VP),那么就会产生如下两条有歧义的句法规则:

      (1)NP→VN

      (2)VP→VN换句话讲,当计算机观察到文本中相邻出现的“V+N”词类序列时,仍不能确定它们组成的究竟是NP还是VP。我们把这样的歧义叫做“短语类型歧义”。例如:

      ·该公司正在招聘[销售V人员N]NP。

      ·地球在不断[改变V形状N]VP。

      下面再来看“N+V”的组合,也同样会产生带有短语类型歧义的规则对,如:

      (3)NP→NV 例:市场调查;政治影响。

      (4)S→NV 例:价格攀升;局势稳定。其中标记S代表小句。

      不仅如此,有时当机器观察到相邻出现的“N+V”词类序列时,甚至不能判断它们是不是在同一个短语中。也就是说,“N+V”词类序列可能组成名词短语NP或小句S,也有可能根本就不在同一个短语里。 后面这种歧义称为“短语边界歧义”。下面是两个相关的例句:

      ·中国的[铁路N建设V]NP发展很快。

      ·[中国的铁路N]NP建设V得很快。前一个例句中,“铁路 建设”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。 这足以说明, 基于单一标记的PSG不能充分地描述自然语言中的句法歧义现象。 下面再看一些这样的例子。

      (5)NP→V N1 de N2

      (6)VP→V N1 de N2其中de代表结构助词“的”。例如,“[削 苹果]VP的刀”是NP;而“削[苹果 的 皮]NP”则是VP。这里既有短语类型歧义,又有短语边界歧义。比如,“削V苹果N”这两个相邻的词,可能构成一个VP,也可能分处于两个相邻的短语中。

      (7)NP→P N1 de N2

      (8)PP→P N1 de N2规则中P和PP分别表示介词和介词短语。例如,“[对 上海]PP 的印象”是NP;而“对[上海的 学生]NP”则是PP。相邻词“对P上海N”可能组成一个PP,也可能分处于两个短语中。

      (9)NP→NumP N1 de N2其中NumP表示数量短语。规则(9)虽然表示的是一个NP, 但可分别代表两种结构意义:

      (9a)NumP[N1 de N2]NP 如:五个[公司的职员]NP

      (9b)[NumP N1]NP de N2 如:[五个公司]NP的职员

      (10)NP→N1 N2 N3规则(10)表示的也是一个NP,但“N1+N2”先结合,还是“N2+N3”先结合,会出现两种不同的结构方式和意义,即:

      (10a)[N1 N2]NP N3 如:[现代 汉语]NP词典

      (10b)N1[N2 N3]NP 如:新版[汉语词典]NP以上讨论的第一个事实说明:

      ·由于约束力不够,单一标记的PSG 规则不能充分消解短语类型和短语边界的歧义。用数学的语言讲,PSG规则是必要的, 却不是充分的。因此,机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语,或者是什么短语,都有某种不确定性。

相关文章: