自然语言处理技术的三个里程碑

收藏 |打印|下载word

作者：

黄昌宁/张小凤

作者简介：

黄昌宁，张小凤，微软亚洲研究院通讯地址：100080 北京知春路49号希格玛中心五层微软亚洲研究院〈cnhuang@microsoft.com〉

原文出处：

外语教学与研究

内容提要：

半世纪以来自然语言处理（NLP ）研究取得两点重要认识和三大重要成果，即认识到：（1）对于句法分析，基于单一标记的短语结构规则是不充分的；（2）短语结构规则在真实文本中的分布呈现严重扭曲。换言之，有限数目的短语结构规则不能覆盖大规模语料中的语法现象。这与原先的预期大相径庭。NLP 技术的发展在很大程度上受到这两个事实的影响。从这个意义上说，本领域中称得上里程碑式的成果是：（1）复杂特征集和合一语法；（2）语言学研究中的词汇主义；（3）语料库方法和统计语言模型。大规模语言知识的开发和自动获取是NLP 技术的瓶颈问题。因此，语料库建设和统计学理论将成为该领域中的关键课题。

期刊代号：H1

分类名称：语言文字学

复印期号：2002 年 09 期

关键词：

自然语言处理复杂特征集词汇主义语料库方法统计语言模型

字号：大中小

［中图分类号］H087 ［文献标识码］A ［文章编号］1000－0429（2002）03－0180－8

1. 引言

从50年代的机器翻译和人工智能研究算起，NLP（Natural Language Processing，自然语言处理）已有长达半个世纪的历史。在这个进程中，学术界曾提出许多重要的理论和方法，取得了丰富的成果。笔者认为，近二十年在这一领域中堪称里程碑式的贡献有如下三个：（1）复杂特征集和合一语法；（2）语言学研究中的词汇主义；（ 3）语料库方法和统计语言模型。这三个成果将继续对语言学、计算语言学和NLP研究产生深远影响。为了更好地理解这些成果的意义，先介绍与此相关的两个事实。

2. 两个事实

2.1 事实之一——短语结构语法不能有效地描写自然语言

在自然语言处理中，为了识别一个输入句子的句法结构，首先要把句子中的词一个一个地切分出来，然后去查词典，给句子中的每个词指派一个合适的词性（part of speech）；之后再用句法规则把句子里包含的句法成分，如名词短语、动词短语、小句等，逐个地识别出来。进而判断每个短语的句法功能，如主语、谓语、宾语等，及其语义角色，最终得到句子的意义表示，如逻辑语义表达式。这就是一个句法分析的全过程。

本文要提到的第一个事实是：短语结构语法（Phrase Structure Grammar，简称PSG）不能有效地描写自然语言。PSG在Chomsky语言学理论中占有重要地位，并且在自然语言的句法描写中担当举足轻重的角色。但是它有一些根本性的弱点，主要表现为，它使用的是像词类和短语类那样的单一标记，因而不能有效地指明和解释自然语言中的结构歧义问题。请看汉语中“V＋N”组合。假如我们把“打击、委托、调查”等词指派为动词（V）；把“力度、方式、盗版、甲方”等词视为名词（N），并同意“打击力度”、“委托方式”是名词短语（NP）， “打击盗版”、“委托甲方”是动词短语（VP），那么就会产生如下两条有歧义的句法规则：

（1）NP→VN

（2）VP→VN换句话讲，当计算机观察到文本中相邻出现的“V＋N”词类序列时，仍不能确定它们组成的究竟是NP还是VP。我们把这样的歧义叫做“短语类型歧义”。例如：

·该公司正在招聘［销售V人员N］NP。

·地球在不断［改变V形状N］VP。

下面再来看“N＋V”的组合，也同样会产生带有短语类型歧义的规则对，如：

（3）NP→NV 例：市场调查；政治影响。

（4）S→NV 例：价格攀升；局势稳定。其中标记S代表小句。

不仅如此，有时当机器观察到相邻出现的“N＋V”词类序列时，甚至不能判断它们是不是在同一个短语中。也就是说，“N＋V”词类序列可能组成名词短语NP或小句S，也有可能根本就不在同一个短语里。后面这种歧义称为“短语边界歧义”。下面是两个相关的例句：

·中国的［铁路N建设V］NP发展很快。

·［中国的铁路N］NP建设V得很快。前一个例句中，“铁路建设”组成一个NP；而在后一个例句中，这两个相邻的词却分属于两个不同的短语。这足以说明，基于单一标记的PSG不能充分地描述自然语言中的句法歧义现象。下面再看一些这样的例子。

（5）NP→V N1 de N2

（6）VP→V N1 de N2其中de代表结构助词“的”。例如，“［削苹果］VP的刀”是NP；而“削［苹果的皮］NP”则是VP。这里既有短语类型歧义，又有短语边界歧义。比如，“削V苹果N”这两个相邻的词，可能构成一个VP，也可能分处于两个相邻的短语中。

（7）NP→P N1 de N2

（8）PP→P N1 de N2规则中P和PP分别表示介词和介词短语。例如，“［对上海］PP 的印象”是NP；而“对［上海的学生］NP”则是PP。相邻词“对P上海N”可能组成一个PP，也可能分处于两个短语中。

（9）NP→NumP N1 de N2其中NumP表示数量短语。规则（9）虽然表示的是一个NP，但可分别代表两种结构意义：

（9a）NumP［N1 de N2］NP 如：五个［公司的职员］NP

（9b）［NumP N1］NP de N2 如：［五个公司］NP的职员

（10）NP→N1 N2 N3规则（10）表示的也是一个NP，但“N1＋N2”先结合，还是“N2＋N3”先结合，会出现两种不同的结构方式和意义，即：

（10a）［N1 N2］NP N3 如：［现代汉语］NP词典

（10b）N1［N2 N3］NP 如：新版［汉语词典］NP以上讨论的第一个事实说明：

·由于约束力不够，单一标记的PSG 规则不能充分消解短语类型和短语边界的歧义。用数学的语言讲，PSG规则是必要的，却不是充分的。因此，机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语，或者是什么短语，都有某种不确定性。

共10条结果上一页12 3 4 5 下一页全部展开

普方古视角下的研究

史冠新

语言文...2006年第11期
现代汉语词缀新探

陈伟琳

语言文...2006年第11期
唐宋时期的平比句

张赪

语言文...2006年第11期
当代汉语词汇中的“返祖”现象

刁晏斌

语言文...2006年第11期
吴闽语进行体和持续体的语法化序列分析

蔡国妹

语言文...2006年第11期

自然语言处理技术的三个里程碑

相关文章：