自然语言处理与理解,就全世界范围来看,目前似都滞留于“句处理”阶段。所谓“句处理”,通俗地说,就是怎么让计算机处理、理解自然语言中一个句子的意思,又怎么让计算机生成一个符合自然语言规则、可以让人接受的句子来。人用语言向对方或他人表达自己的思想、看法、情感,或者从对方或他人的话语中准确理解对方或他人的思想、看法、情感,都需经过一个复杂的编码或解码的过程,而在这个编码或解码的过程中事实上要调动各种各样的因素,单就语言这个角度说,起码也得调动语音、语义、语法、语用等各方面的因素。现在任何国家的研究机构都还未在“句处理”研究上有明显的、实质性的突破。 为了希望能在“句处理”研究上能有所突破,有关专业人员做了很多努力,做了很多工作。最早进行“句处理”研究工作是采用基于规则的方法展开的。基于规则的“句处理”策略,要求研究者对语言知识要有全面系统的清晰认识。“语言知识可以分为基于范畴(Category)的‘属性:值’型知识(ATTRIBUTE: value)和基于规则(Rule)的‘条件→动作’型知识(CONDITION→action)。范畴用来刻画语言对象的一个或一组特征。规则用来表述范畴间的关系。‘特征’的数量是不确定的。一个范畴可能刻画几个特征,一个特征也可能有几个范畴都能刻画它。举例来说,‘名词’是一个范畴,它可以刻画一个具体的名词在几个方面的句法特征,如能受数量词修饰,能充当主宾语等等。逻辑上,所有规则都可以表示为P→Q这样的蕴涵式(意即如果存在P,那么必定存在Q)。P和Q这两个命题分别建立在已知范畴的基础上,因此规则实际上表述了命题所涉及的范畴之间的关系。比如,可以有这样的规则,如果W是名词(P),那么W能作主语(Q)。显然,这条规则在‘名词’跟‘主语’两个范畴间建立起了一种联系,尽管这条规则所描述的联系是粗糙的,甚至不那么正确,但是,以这样的方式建立范畴之间的联系,是分析语言的结构时必不可少的。而语言学家所要做的,正是去寻找正确的和好的联系。从形式方面看,研究者要考虑的就是以何种形式化的方式把范畴知识和规则知识组织起来,使得更有利于计算机处理。而所谓语言知识的形式化,就是以一套严格定义的符号系统来精确地表达语言知识,包括范畴的符号化和规则的公式化。”“范畴知识一般用词库(机器可读词典MRD)来负载,规则知识则由所谓规则库(规则的集合)来承担。”(詹卫东2000)根据上述认识,基于规则的研究工作,必须充分利用语言学家已有的研究成果,即语言学家所已经提供的有关汉语的知识。利用这些知识,研究者首先来整理、确立一定的范畴体系,并基于这一范畴体系来建立计算机进行“句处理”所需要的词库,在词库中对每一个具体的语言成分(词或短语)进行尽可能详尽的属性赋值;其次整理、确立能正确地描述范畴之间关系的规则,在计算机内建立规则库。建立了词库和规则库,就可以让计算机利用这些词库和规则库,按研究者的需要进行运算、分析,然后研究者根据计算机的分析结果(着重看计算机的分析结果是否跟预期的要求或目标相符),来调整原有的范畴体系、具体语言成分的属性取值以及相关的规则,即改进词典和规则库的内容。而在开始这些工作前,必须先规划一套初步的语言知识形式化表达体系,以便于计算机在一个严密的表达系统内具体展开上述的工作。基于规则的“句处理”研究策略看来很好,但是工作遇到了重重困难,主要是语言学家所提供的语言规则远远不能满足信息处理的需要,既存在语言规则不够的问题,更存在语言规则不准确的问题,因此并不能如愿以偿。 上个世纪90年代后大家把注意力转向统计的方法。基于统计的“句处理”研究,主要求助于计算机对大规模语料库(corpus)真实文本的统计分析,由计算机来抽象出语言知识。因此,基于统计的“句处理”,其重要依靠就是语料库。基于语料库的“句处理”研究不同于以往的基于规则的“句处理”研究,它主要利用计算机储存的亿万字的语料和计算机的高速运算速度,从语言使用的现实状况出发,通过计算机的自动学习来归纳、总结出语言规则,而不是像基于规则的思路那样,从语言规则出发,去推演可能的语言事实。因此,所谓利用语料库基于统计的研究策略,具体说就是“由计算机对语料(一般得是熟语料,即经过切分和词性标注后的语料)进行统计以获得到语言知识——一般表现为参数,再利用得到的参数对语料进行分析,根据分析得到的反馈结果来调整已有的参数,从而提高分析能力”。(詹卫东2000)到目前为止,统计方法几乎已占了压倒性的地位,但也并未见到“句处理”研究有明显的突破。 现在逐步趋向于将二者结合。“结合”方式是在“统计”中加入各种各样的规则。从理论上来说,这种“结合”应该是一条光明大道,问题是怎么结合?结合点应该在哪里? 最近见到王黎(2005)这样一个看法:语言是跟客观世界和人类思维密切相关的专门用于意义表达的一种工具,准确地说是语义的媒介物。所以,语言存在的价值就是为了表达意义。但是,语言本身并不能凭空产生意义,客观世界和人的认知为语言提供意义的基本来源。同时,语言也不能凭空表达意义,它必须通过一定的实体,即一定的形式去表达相应的意义。所以说,语言形式是为意义服务的工具,是意义赖以存在的实体和物质层,语言最终的落脚点是在意义上而非形式上。从客观世界到最后用言辞把人的感知所得表达出来,王黎(2005)认为这中间一共可以分为五层:客观世界、人的认知图式、语义表达框架、构式以及最终形成的句子,王黎将上述五个层面的关系用下图表示(以用言辞表示存在义为例): 附图
王黎这一看法,当然也还只是一种假设。这一假设怎么样,大家都可以发表自己不同的看法,可以进一步加以验证。但她的假设无疑给人以启迪。这里需要指出的是,用计算机实现“句处理”,其路子不会是如上图所示,即不会是“从大到小”,而应该是“从小到大”,即从抓具体词语入手。具体怎么抓?