学界近来对“语言信息化”的研究比较重视,发表了一系列的文章,介绍和讨论“机器翻译”“自然语言处理”“中文信息处理”“自然语言理解”“计算语言学”“深度神经网络”等研究领域。①除了从研究领域的历史、现状、发展策略等方面的综述和分析之外,我们还看到对语言信息化的产业和产品的介绍。②与此同时,语言信息化对人类生活的影响,以及具体到语言教育、语言规划等方面的影响也受到重视。③然而,语言信息化的核心问题看来仍然是自然语言处理的研究和应用,④而其中的前沿性课题是自然语言理解。⑤ 一般认为,自然语言处理是人工智能和语言学的交叉学科。但是,从其发展历程上来看,基本上还是由计算机科学家主导的一个研究领域,语言学家发挥的往往是辅助性的作用。甚至于,在其发展历史的许多阶段都没有语言学家的直接参与。⑥然而,无论从其发展历程、现状和发展策略上来看,似乎都可以看到语言学理论的影子。尽管如此,对此目前还没有比较明确的确认和分析。因此,本文做这方面的初步尝试,抛砖引玉,以期引起相关的讨论。 除了从宏观方面探讨语言学理论和自然语言处理的关系外,本文重点讨论社会语言学理论对自然语言处理的影响和作用,同时分析言语社区、⑦语境语义⑧等概念对自然语言理解的作用,及其在自然语言处理中可能的应用。 一、语言学理论与自然语言处理 自然语言处理迄今的发展已经开始模糊人类语言的界限,人类开始和机器共享语言这一信息工具。⑨因此,语言学的研究对象恐怕也要逐渐超出原有的界限。目前计算机学习和使用自然语言的研究成果会对语言习得、语言学习和语言使用的研究提供新的启发。与此同时,从语言学理论的视角审视自然语言处理的历史和现状,恐怕也可以对其今后的发展提供启示。 从计算机科学的角度来认识和讨论自然语言处理所取得的成果及其当前所面临的问题已经有很多,⑩从语言学角度讨论的就比较少。从语言学角度来审视自然语言处理的发展状况,已经提出的问题包括跨语言的模型应用问题、脱离语言的文化背景问题,等等。(11) 有关专家指出,自然语言处理的两大流派是理性主义和经验主义,前者被认为是以乔姆斯基(Noam Chomsky)的语法理论为基础,后者似乎没有受到语言学理论的影响。(12)然而,所谓“理性主义”就是主要采用规则和知识库的逻辑推理系统的方法;而“经验主义”就是基于大规模语料库的统计机器学习方法。其实,语言作为一个规则系统的思想建立在“语言是一个符号系统”的思想之上;前者由乔姆斯基弘扬,后者则归功于结构主义语言的创始人索绪尔(Ferdinand de Saussure)。 我们发现,20世纪语言学的主要成果,特别是结构主义语言学和生成语法的理论成果在自然语言处理中得到了有成效的应用。然而,近年来发展起来的社会语言学的理论成果还没有得到适当的应用。社会语言学的理论吸取了美国结构主义语言学面向客观语料的描写主义的精华,也吸收了以乔姆斯基为代表的形式语言学的部分成果;但它的主要方法论体现了由主观向客观、由推理向归纳、由定性向定量的转向。具体来说,它抛弃了内省的语料验证方法,依据实际产生的语料,观察语言使用中的概率现象,将语言解释为是一种社会互动机制和社会组织行为的结果。(13)因此,自然语言处理的机器学习采用实际产生的语料,统计语言形式的共现概率,建立归纳式的模型,不能不说是受到社会语言学的一些影响。但是,由于还没有领会社会语言学的真谛,目前的自然语言处理还缺乏自觉地建立社会语言学的处理模型的能力。 当前的语言学界已经认识到语言研究的对象,不仅仅是语言形式和语言形式所表达的意义,还包括语言使用的环境。而社会语言学的成果恰恰集中在后者。以实用为目标的自然语言处理,不能停留在抽象的语言形式的层次,必须要处理具体的话语。要理解话语,就必须理解语境。所以,自然语言处理的应用需要超越对形式语义的理解,需要包括对结合语境的话语意义的理解。 结构主义语言学成功地分析了自然语言的语素音位系统,因此自然语言处理目前在语音识别、语音合成、语音文字转换等方面都取得了很大的成功。生成语法对句法规则的形式化的表述可以说是引起计算机科学家对自然语言处理产生兴趣的一个原因。其句法分析的成果也在当前的自然语言处理中得到应用。尽管如此,结构主义语言学对于抽象的结构系统的偏重和对于语义研究的回避,生成语法完全排斥言语交际的研究,这些都对语言学的发展,以至自然语言处理的发展产生了严重的影响。 目前自然语言处理发展的瓶颈就是对语言所表达的意义的处理;(14)究其根本,还是语言学发展不平衡的一个结果。语言学中偏重句法和音系研究的现象局限了语言学的发展,同时造成句法和音系构成主要语言规则系统的假象。以至于,语音词汇语法被认为是构成语言的全部内容;自然语言处理也不过就是对这些内容的处理。(15)简化来说,人们认为,语言就是一个大词库加一些组词造句的规则,这些构成语言的“中心系统”,而将这些系统翻译成语音和意义的是“外围系统”。(16)这种观点是落后的语言学观点,但仍然在很大程度上支配着自然语言处理的一些理念。例如,在进行语义处理的时候,自然语言处理的研究工作还集中在词汇短语和句子的层次上,没有意识到语境语义的重要性,以至于脱离了言语交际的现实,不但事倍功半,还可能误入歧途。