1.引言:认知科学与语言学 认知科学的发展日新月异。从上世纪五十年代到今天虽然只有短短的几十年,科学家们对人脑的构造及功能已经有了比较深入的认识。语言学在这个认识过程中起了十分重要的作用。特别是心理语言学,由于它跨学科的特征,使我们能通过对人们使用语言和学习语言的心理机制来透视人脑处理信息的普遍特征。本文拟从语言习得的角度来探讨目前风靡一时的联结主义模式(connectionist models)(注:Connectionism又称为neural networks(神经网络),国内有学者译作“连接主义”。但笔者认为“联结主义”能够更好地反映这个理论的特征。),并以此讨论认知科学及语言学的一般性问题。 从上世纪五十年代末期到今天,Chomsky的理论一直在语言学中占主导地位。Chomsky对传统的语言学理论提出了挑战,认为语言知识从根本上是一种心理机制,而这种机制的根本又是形式语法系统。也就是说,人脑是通过一个内存的规则系统(形式语法)来反映语言的。过去几十年中,Chomsky不断更新他对形式语法系统的描述,从原有的“转换生成语法”到今天的“最简方案”,虽然其间有不少变化,但不离其对规则的基本诉求。心理学家和心理语言学家们同样对规则系统深信不疑,认为只有规则系统才能够有效地反映人脑的高级抽象活动。这种认识乃是基于认知科学家的一个基本假设:人脑是处理符号系统(symbol system)的机器(Newell 1980)。这个假设对认知科学起了很大的影响:一旦我们将人脑当作符号系统,我们就可以很方便地描述这个机器对符号加工与处理的方式。从某个角度来看,我们可以拿这部机器与计算机作比较:描述人脑的过程跟描述计算机的软件操作过程一样。 这种将人脑看作符号系统的观点与心理学的模块理论(modular theory)有着密不可分的关系。18世纪Franz Gall提出了模块理论的最初假设。但那时的假设强调人的性格特征与脑骨骼的外型特征的关系,因而缺乏科学根据。现代心理学对模块理论表述最完备的莫过于Jerry Fodor(1983)。Fodor认为人脑的认知系统是由许许多多的模块组成的。这些模块有的负责语法、有的负责视觉、有的负责听觉,任务专一(domain-specific),互相独立(autonomous)。对于心理语言学来说,最重要的是这些模块在语言的加工过程中不能同时互动(parallel interaction)。例如,当你听到“小明和小张在切蛋糕”这句话时,模块理论假设,我们是由语音系统开始,然后对词汇,再对语法,最后对语义进行加工。这是由低层到高层的一个过程(bottom-up process),次序严谨,不能打乱。再者,在对语法加工的同时,语音和语义都不能起作用:每一层面的信息都是自给自足的(informationally encapsulated)。模块理论的线性次序,及其分明的层次,对认知科学家具有极强的吸引力。但是,近十几年来它也受到了强烈的挑战。对模块理论及其在大脑中的表征,读者可参看Uttal(2001)较系统的阐述及批判。对其挑战的主要理论当属联结主义了。 我们知道,符号系统的观点及模块理论的假设是建立在将人脑比作电脑的基础之上的。这种比拟的优点是,我们能够有效地讨论人脑在信息处理时的操作过程及加工特征(如线性次序,模块结构,加工流程图等等)。但它最大的缺点是难以在生物及神经学上找到对应的关系(neurally implausible)。人脑内有上千亿神经元,而且这些神经元之间的联结关系比起电脑中几百或上千的电极管要复杂得多。还有,电极管每秒可以进行几百万或几千万次运算,而神经元每秒则只可以发送或接收几百次电子化学的脉冲。因此,如果人脑是按线性次序来操作,每秒不过能计算一百次左右(100-step rule,Feldman and Ballard1982)。显而易见,每秒一百个操作步骤是不能够完成复杂的认知过程的。例如,词语的加工过程至少精确到十分之一秒。最后,数字电脑只能接收单一的、清楚的符号信号(all or none),没有所谓的中介状态(partial status)。这与人脑的灵活性及可塑性有极大的差别。所有这些原因都给联结主义的观点铺下了基石。 联结主义的一些初期理论就已经与模块理论的基本假设针锋相对了。最著名的要算“互动激活”(interactive activation)理论。Rumelhart和McClelland(1981)提出了互动激活的基本假说。根据这个假说,语言加工的过程既包含从下至上的过程(bottom-up process),也包含从上至下的过程(top-down process)。与模块理论的假说相反,这两种过程可以在同一时间互动。举例来说,当你听到“小明和小张在切蛋糕”这句话时,既可有语音至词汇至语法至语义的过程,也可以有语境的作用由上至下帮助听者理解语义、语法、词汇及语音。这两种过程可以从听者对在噪音的干扰下仍能完整地理解句子的情况中看出来。如果“蛋糕”的“糕”字突然受到干扰(例如在电话交谈中),听者的理解系统可以自动修补并添加“糕”的字音。Rumelhart和McClelland还举例说明,如果英文字母R或K的右上角被遮盖(类似h),读者可以根据词的周围语境(WOR-)自动修补,达到理解K而不是R。这种语境效应或词优效应(word-superiority effect)对互动激活的理论提供了有力的支持。 2.联结主义的基本特征 互动激活的假说给联结主义用于语言分析中打下了基础。但严格地说,它还不能算是联结主义的模型。按照Rumelhart,McClelland,和PDP(parallel distributed processing)Group(1986)的PDP理论,联结主义有以下两个基本特征。首先,在知识的表征(representation)方面,它强调“分布表征”(distributed representation)。分布表征与传统认知理论对知识的表征有很大的不同。上面我们提到,传统认知理论将人脑看作是符号处理系统,因而它采用的是“方位表征”法(localist representation)。这种表征的基本特点是一个信息加工的单位(或单元)只表达一个概念(例如语素、字或词),而一个概念也只由一个单位来表达。这样,表达单位不能进一步分解为更小的单位,因为它与概念间有清楚的一对一的关系。分布表征与此不同:它强调一个概念由多个单元互相作用的关系来表达。例如,英文大写字母F和E之间的不同在于后者多了一横。照方位表征法,F和E是分别由两个不同的单元来表达的。照分布表征法,F和E可以由多个同样的单元来表达,所不同的某些单元在表达E时被激活,但在表达F时被抑制。这样一来,我们如果仅看这些个别的单元,它们既不表达F,也不表达E。F和E的知识是由多个单元之间激活的关系来表达的。