[中图分类号]H087 [文献标识码]A [文章编号]1000-0429(2002)03-0180-8 1. 引言 从50年代的机器翻译和人工智能研究算起,NLP(Natural Language Processing,自然语言处理)已有长达半个世纪的历史。 在这个进程中,学术界曾提出许多重要的理论和方法,取得了丰富的成果。笔者认为,近二十年在这一领域中堪称里程碑式的贡献有如下三个:(1)复杂特征集和合一语法;(2)语言学研究中的词汇主义;( 3)语料库方法和统计语言模型。这三个成果将继续对语言学、计算语言学和NLP研究产生深远影响。为了更好地理解这些成果的意义, 先介绍与此相关的两个事实。 2. 两个事实 2.1 事实之一——短语结构语法不能有效地描写自然语言 在自然语言处理中,为了识别一个输入句子的句法结构,首先要把句子中的词一个一个地切分出来,然后去查词典,给句子中的每个词指派一个合适的词性(part of speech);之后再用句法规则把句子里包含的句法成分,如名词短语、动词短语、小句等,逐个地识别出来。进而判断每个短语的句法功能,如主语、谓语、宾语等,及其语义角色,最终得到句子的意义表示,如逻辑语义表达式。这就是一个句法分析的全过程。 本文要提到的第一个事实是:短语结构语法(Phrase Structure Grammar,简称PSG)不能有效地描写自然语言。PSG在Chomsky语言学理论中占有重要地位,并且在自然语言的句法描写中担当举足轻重的角色。但是它有一些根本性的弱点,主要表现为,它使用的是像词类和短语类那样的单一标记,因而不能有效地指明和解释自然语言中的结构歧义问题。请看汉语中“V+N”组合。假如我们把“打击、委托、调查”等词指派为动词(V);把“力度、方式、盗版、 甲方”等词视为名词(N),并同意“打击力度”、“委托方式”是名词短语(NP), “打击盗版”、“委托甲方”是动词短语(VP),那么就会产生如下两条有歧义的句法规则: (1)NP→VN (2)VP→VN换句话讲,当计算机观察到文本中相邻出现的“V+N”词类序列时,仍不能确定它们组成的究竟是NP还是VP。我们把这样的歧义叫做“短语类型歧义”。例如: ·该公司正在招聘[销售V人员N]NP。 ·地球在不断[改变V形状N]VP。 下面再来看“N+V”的组合,也同样会产生带有短语类型歧义的规则对,如: (3)NP→NV 例:市场调查;政治影响。 (4)S→NV 例:价格攀升;局势稳定。其中标记S代表小句。 不仅如此,有时当机器观察到相邻出现的“N+V”词类序列时,甚至不能判断它们是不是在同一个短语中。也就是说,“N+V”词类序列可能组成名词短语NP或小句S,也有可能根本就不在同一个短语里。 后面这种歧义称为“短语边界歧义”。下面是两个相关的例句: ·中国的[铁路N建设V]NP发展很快。 ·[中国的铁路N]NP建设V得很快。前一个例句中,“铁路 建设”组成一个NP;而在后一个例句中,这两个相邻的词却分属于两个不同的短语。 这足以说明, 基于单一标记的PSG不能充分地描述自然语言中的句法歧义现象。 下面再看一些这样的例子。 (5)NP→V N1 de N2 (6)VP→V N1 de N2其中de代表结构助词“的”。例如,“[削 苹果]VP的刀”是NP;而“削[苹果 的 皮]NP”则是VP。这里既有短语类型歧义,又有短语边界歧义。比如,“削V苹果N”这两个相邻的词,可能构成一个VP,也可能分处于两个相邻的短语中。 (7)NP→P N1 de N2 (8)PP→P N1 de N2规则中P和PP分别表示介词和介词短语。例如,“[对 上海]PP 的印象”是NP;而“对[上海的 学生]NP”则是PP。相邻词“对P上海N”可能组成一个PP,也可能分处于两个短语中。 (9)NP→NumP N1 de N2其中NumP表示数量短语。规则(9)虽然表示的是一个NP, 但可分别代表两种结构意义: (9a)NumP[N1 de N2]NP 如:五个[公司的职员]NP (9b)[NumP N1]NP de N2 如:[五个公司]NP的职员 (10)NP→N1 N2 N3规则(10)表示的也是一个NP,但“N1+N2”先结合,还是“N2+N3”先结合,会出现两种不同的结构方式和意义,即: (10a)[N1 N2]NP N3 如:[现代 汉语]NP词典 (10b)N1[N2 N3]NP 如:新版[汉语词典]NP以上讨论的第一个事实说明: ·由于约束力不够,单一标记的PSG 规则不能充分消解短语类型和短语边界的歧义。用数学的语言讲,PSG规则是必要的, 却不是充分的。因此,机器仅仅根据规则右边的一个词类序列来判断它是不是一个短语,或者是什么短语,都有某种不确定性。