语言能力(包括口语能力和书面语言能力)是人的首要能力,是其综合能力的重要组成部分,也是运用和展现综合能力的最重要手段。人终其一生,都在不断地学习语言及其表达的各种知识。正常人很自然地便掌握了日常生活中使用的母语(口语),但读、写能力以及第二语言的听、说、读、写能力却需要专门学习。 语言能力需要关注的一个领域是机器的语言能力,即机器理解和运用人类语言的能力,亦即自然语言处理技术。《国家中长期科学和技术发展规划纲要(2006-2020年)》已将中文信息处理列为前沿技术。语言能力还包括运用机器语言的能力,即将自然语言处理技术应用到日常学习、研究、生产中,以提高效率和水平。利用互联网上的某个在线翻译系统进行不同语言间的互译就是一个应用实例。语言信息产业将自然语言处理技术转化为生产力,成为语言产业和信息产业的分支。 一、语言知识库是自然语言处理的基础 通常人与人的语言交流很自然,这是因为交流总是在一定的环境中进行,交流双方的知识背景一定有共同的部分,而且对交流的目的大体上也有预设。现在的计算机还不能像人一样了解环境与理解语言的内容,将语言作为处理对象时,就会产生各种各样的歧义。面对 例1 白天鹅飞走了。 例2 白天鹅可以看家。 这两句话,机器要判断其中的汉字串“白天鹅”究竟是“白/天鹅”还是“白天/鹅”。这是最基本的一类消歧问题(词语切分歧义)。提升机器语言能力的第一步就是要增强机器对自然语言歧义的消解能力。机器翻译系统通常以句子作为处理对象,机器读懂源语言句子的表现形式之一是正确地分析出句子的句法结构(通常用“句法树”表示)。针对 例3 顾客认为他是老板。 例4 同学选举他当班长。 这两句话,机器翻译系统通过分析,如果得到它们正确的句法树,就不难给出对应的英语译文。利用句法规则进行句法分析,首先要把构成句子的词的序列抽象为词性序列。这两个句子的词性序列一样,即“名词动词代词动词名词”,但它们的句法结构不一样,这也是一种歧义:句法结构歧义。产生这种歧义的原因是它们中的第一个动词表现的句法属性可以是不一样的:“认为”带小句宾语,而“选举”是兼语动词。分析程序如果能从某个地方获取这样的知识就能消解歧义。《现代汉语语法信息词典》(简称GKB)①就为自然语言处理系统提供了这样的语法知识。回到例1和例2,机器中只要配备了“属于鸟类的天鹅会飞”、“(在南方农村)家禽鹅白天可以看家,不会飞”等常识性知识,其中的歧义就可以消解。 包含语言的词汇、句法、语义知识的语言知识库是自然语言处理系统实现各种功能的基础设施,其规模和质量在很大程度上决定了自然语言处理系统的成败。为了支持机器语言能力的提示,北京大学计算语言学研究所历时20余年建成“综合型语言知识库”(简称CLKB),涵盖了词、词组、句子、篇章各级单位和词法、句法、语义各个层面,从汉语向多语言辐射,从通用领域深入到专业领域。 CLKB的系列化语言知识库虽然涵盖各级语言单位和各个知识层面,但其重心仍在词语级的句法层面知识上,更大的语言单位涉及较少,语义层面的知识相对贫乏。机器若翻译 例5 她的仪表精密。 例6 她的仪表端庄。 这两句话,必须消解“仪表”的词义歧义。《现代汉语语法信息词典》的名词库中收入了两个“仪表”,作了同形词的区分,并分别描述它们的语法属性:一个“仪表”可受数量短语修饰,且量词可为个体量词,如“台,个”等;另一个“仪表”不受数量短语修饰。但在这两个例句中没有数量短语,上述属性对“仪表”的词义消歧发挥不了作用。为了提升机器消解这类歧义的能力,另外一个描述词语语义信息的语言知识库即“现代汉语语义词典”(简称CSD)应运而生。自动分析程序调用CSD的形容词库对“端庄”、“精密”的描述,就能判断例句5中的“仪表”指的是仪器,而例句6中的“仪表”指的是人的品貌。 CLKB和CSD等知识库为机器语言能力的提升起到了基础设施的重要作用。现有的语言知识库尚不能完全满足自然语言处理的需要,有待继续发展。 二、人类语言机制理解制约计算语言学发展 某个在线机器翻译系统实现不同语言问某些类型文本的互译或确有不俗的表现,但对翻译诗歌却力不从心,Web搜索漏检和错检的现象也比比皆是。这说明,现在计算机处理自然语言还带有很大的盲目性。实际上,自然语言处理是数值计算机在非数值领域最早的应用,经过60多年的发展,虽然也取得了长足的进步,但无论同计算机技术本身相比较,还是同其在其他各个领域的应用相比较,其发展速度相当缓慢,在自然语言理解的层面上至今未能取得突破性进展。究其原因,以下三点值得注意:第一,语言现象无限,而可利用的计算资源总是有限的,难免顾此失彼;第二,语言既是对象,又是工具,有时难以清晰区分此两个层面的内容;第三,最关键是人类对自身的语言机制不甚了解。人类的语言机制与大脑密切相关,但人们无论对大脑的认知功能还是大脑与语言的相互作用机制,仍所知甚少。观察大脑工作与计算运算之间的差异,有助于认识机器语言能力的局限性、探索其提升途径。