以概率为基础的语言研究

作 者:

作者简介:
桂诗春 通讯地址:510420广东外语外贸大学外国语言学与应用语言学研究中心 广东外语外贸大学

原文出处:
外语教学与研究

内容提要:

本文从语言事实和语言理论关系的角度对语言学中的理性主义及其内省式研究方法提出质疑,介绍了作为相反潮流的概率语言学、语料库语言学、计算语言学、心理语言学的最新发展。我国语言学应发挥注重语言数据的历史传统,使用概率方法,同时也应发展语料库语言学,建立现代汉语和古代汉语的大型语料库,研究汉语处理的认知心理模型。


期刊代号:H1
分类名称:语言文字学
复印期号:2004 年 04 期

字号:

      [中图分类号]H0-05 [文献标识码]A [文章编号]1000-0429(2004)01-0003-7

      一、语言事实与语言理论

      20世纪中叶以来,生成转换语法突破原来结构主义和行为主义的藩篱,掀起了语言学界的轩然大波,出现了众多语言理论异彩纷呈的局面。在语言学争论中,各种语言学派都列举语言事实作为其理论的支撑点。从现代语言学的传统来看,从描写主义、历史主义到结构主义,从语言习得、语言教学到语文改革,都注重收集语言数据,提倡经验主义。Chomsky(1957,1961)的理性主义则主张语言学家的任务是描写人的语言能力,外部语料(例如语料库)无法解释语言能力。理性主义所根据的语言事实是语言学家本身的母语知识(直觉、天性),由此可推导出UG(linguistic universals,语言共同性、语言共项)。Chomsky主要针对20世纪中叶以前以经验主义为基础的语法研究(例如Fries依赖美国政府非正式通讯档案来编写American English Grammar,1940),不无道理。但理性主义研究方法提出以来,语言理论层出不穷,而我们在沉迷于理论的解释时,却往往忽略了一个出发点:语言理论虽可解释语言事实,但语言事实本身并非语言理论的产物。语言事实和语言理论究竟谁是第一性的?如果我们承认语言事实是第一性的,那么根据哪些语言事实来提升语言理论?是语言研究者凭本人直觉所提供的语言事实,还是大多数语言使用者所提供的语言事实?郑锦全在谈到美国语言学研究现状时指出:“目前美国语言学界存在一个问题:理论泛滥,而缺少充分的语言材料,不够扎实”(张凤芝等2002:77)。

      语言学中理性主义的基石之一是语言能力/运用的两分法,自Saussure提出“语言”和“言语”的区别以来,赞成此说者不少。Chomsky强化了它们的区别,将之看成是泾渭分明。对此,不同的语言学家从不同的角度提出了相反的看法。从语篇研究的角度持相反意见的语言学家有:Pike,Hjelmslev,Firth,Halliday,van Dijk & Kintsch,Hartmann等人(见Beaugrande 1991)。社会语言学家(如Hymes 1972)、功能语法学派(如Halliday l973)、应用语言学家(如Widdowsonl984)、心理语言学家和语用学家更是毫不讳言,指出语言运用才是他们研究的对象。语用学家Mey(1993:5)指出,“语用学的恰当领域是Chomsky所说的语言运用”。心理语言学家Aitchison(1998:183-184)虽广泛地介绍了Chomsky的观点,却也觉得把语言能力和语言运用截然分开难以接受,认为“心理语言学家对语言运用和语言知识同样感兴趣;两者密切相关,任何人只注意其中一个因素,而忽略另一个因素,是很奇怪的”。

      内省式的语言研究方法也受到不少人的质疑。在语音学研究中,人们只能依赖自然观察的数据。语言习得研究难以采用内省式判断,研究者本人的语言直觉代替不了儿童的语言直觉(McEnery & Wilson 1996)。Chomsky(1964)自己也认为反对观察语言运用的看法并不适用于研究语言习得。内省式判断对自然观察方法的指责是言过其实。自然观察的数据的好处是有案可查、有目共睹,可以验证;而内省式的判断则是个人的行为,往往没有太大把握,容易陷入循环论证的怪圈。这实际上是科学研究中经常出现的客观知识和主观知识问题:是自然现象还是人为现象?是公众的观察还是个人的臆断?至于当初Chomsky对语料库的任意性偏态的指责,也不见得公允。Oakes(1998)指出,如果我们使用对数正态分布(lognormal distribution)的办法来描述语料分布,偏态就不会出现。值得注意的是Alien & Seidenberg(1999)的研究,他们认为,在整个生成语法历史中一直没有弄清楚语言能力和语言运用的关系,其实两者不能截然分开,他们使用了连接主义网络模型的方法来模拟语法性判断,说明语言运用也可以产生语言能力。

      应该说,生成语法学家致力于考察语言能力的同时,作为相反倾向的、主张尊重客观语言事实的经验主义传统并没有中断,而且在理论、方法论上也有很大进步。数据的基本特征是频数(frequency),表现为概率关系,这就导致以概率为基础的语言研究的蓬勃发展。Halliday(1991)认为,语言系统的概率是固有的。当然观察频数仅是一种手段,不是目的。其目的应该是观察问题和回答问题,从定量向定性发展(Aartsl999)。概率语言学、计算语言学、语料库语言学、心理语言学都是以频数和概率为基础的,它们体现了尊重语言事实的历史传统的重现光彩。

      二、概率语言学的提出

      语言研究的概率方法(Probabilistic Approach)由此出现。2001年美国语言学会首先在华盛顿召开了第一次语言学概率理论专题讨论会,其结果见Bob等(2003)的《概率语言学》。该书Jurafsky(2003)一文指出:“各式各样的证据表明语言是概率性的。概率在语言理解和产生方面,对意义提取、分解和生成起作用。概率在学习方面,对切分和概括起作用。概率在语音学和形态学方面,对可接受性判断和替换性起作用。概率在句法学和语义学方面,对范畴梯度化、句法合格与否的判断和解释起作用。概率在建立语言变化和差异模型中更起到关键作用。”现代语言学的基石是所谓“范畴主义的准则”(maxim of categoricity)。语言是一些定义清晰的、离散的范畴,数量不起什么作用。虽然真正的语言有很多变数、有梯度,但它仅是语言运用的产物。但是概率语言学的主张者认为,越来越多的证据表明,语言判断显示出连续统的特性,是一种明显的梯度行为。2003年在Atlanta召开的第二次概率语言学讨论会,深入讨论了怎样把概率语言学和当前语言学潮流结合起来。会议认为概率语言学和生成语言学似乎是对立的,其实也并行不悖:生成语言学的目的是获得语言现象分布的最终结果,而概率语言学则考虑较少为人探索的、有梯度的中间地带。只注意连续统的两端,会使一半语言现象得不到探索和解释。两者结合起来可以让语言学家去探索数据中那些不易为人觉察的、没有得到解释的微妙的型式,使语言学界超越那些显而易见的现象。“中间地带论”只是概率语言学的一种想法,生成语法学者是否也这样想,那是另一回事。

相关文章: