一 引言 随着语料库技术的发展,语料资源逐渐丰富,统计手段逐步完善,真实语言材料属性统计和语言学习的关系越来越受到重视,其中最有代表性的理论就是联结主义理论(connectionism)。联结主义理论认为语言习得的过程实际上是学习者通过真实语言材料获取语言知识并储存于心理词典中,联结主义主张的浮现特征(emergent properties)揭示了语言知识的获得和语言材料之间的本质联系,浮现特征的核心原则是语言规则不是先天固有的,而是在语言获得过程中表现出自然浮现特征,这种浮现过程可以基于对大量输入语料的统计学习而获得(Rumelhart & McClelland 1986,Bates et al.1998,MacWhinney 1999)。近年来,联结主义理论指导了大量的语言习得研究,例如基于统计的婴儿学习、大规模基于语料库的知识提取以及计算机模拟语言习得研究等。也有研究者(Stefan et al.2009)将联结主义模型应用到句子理解模拟研究,证明了联结主义理论可以应用到语言习得的各个领域。 与联结主义紧密相连的是语料库技术所提供的语言统计属性基础。由于不同类型的大规模语料库资源的建立,我们可以对语言材料进行统计分析,使得我们对语言属性的认识更加深入。近20年来,汉语语料库建设及其应用方面已经取得了丰富的成果,目前建立的语料库从内容来看,包括汉语语料库、中国人学习外语的语料库、外国人学习汉语的中介语语料库、双语言对应的平衡语料库等。这些语料库资源的建设,为汉语语言习得与认知研究提供了基础。 从目前的研究趋势来看,第二语言习得研究中,词汇习得研究越来越受到重视,其中将语料库统计分析结果和词汇习得结合起来进行研究,是目前词汇习得研究的趋势。但是,真正将语料库的研究成果应用到语言习得的相关研究非常有限,资源的利用也基本在频度统计和例句提取等层面,虽然也在利用共现关系提取词义知识(Burgess & Lund 1997、1999,Landauer & Dumais 1997),认为语义可以从词与词、词与篇章的关系中提取,但提取的语义知识还非常有限,尚未真正在理论上和方法上有所突破。在这样的研究背景下,本文试图以联结主义理论作为理论背景,结合语料库的相关研究成果及研究思路,探讨第二语言词汇习得过程及其特点,提出一个第二语言词汇习得过程理论模型,并着重探讨词汇属性统计研究在第二语言习得研究中的重要作用,为第二语言词汇习得研究构建一个基本的研究框架。 二 联结主义理论与词汇知识 2.1 词汇知识表征与存储 关于词汇知识,语言学界很早就进行了相关的研究。Nation(1990)认为掌握一个词语就是要掌握:(1)形式。形式包括口语的和书面语的;(2)意义。包括概念意义和联想意义等;(3)位置和功能。位置是指语法框架、搭配方式等,功能包括频率和使用场合等。Laufer(1998)也提出了一个类似的词汇知识的定义,将词汇知识分成三部分:基本应接性知识、受控制的知识和自由知识。作者认为词汇知识可能在不同的学习阶段从表面发展到深层。词汇的发展也不只是熟悉新词而已,它还包括深化已知的知识。尽管分类不同,但这些观点的共同之处在于,词汇知识应该包括形态、意义、功能和用法等几个方面。 词汇知识究竟指什么,如何获得,如何组织在人脑中进行储存,不同类型的知识是如何关联的,这些都是认知心理学所关注的重要问题。早在20世纪60年代,心理学家Treisman(1960)提出了心理词典(mental lexcal)这个概念,到目前为止,人们对心理词典的认识逐渐深入,但是对心理词典的类型及其知识组织方式等还没有形成完全一致的看法。心理词典的最核心问题就是词汇知识及其存储方式。我们根据目前基于联结主义理论研究的相关成果,从以下几个方面描述心理词典中的知识表征属性。 (1)知识表征。知识表征描述的是知识如何储存在心理词典中的,联结主义强调的心理词典的表征类型是分布表征(distributed representation),分布表征与传统认知理论对知识表征的看法不同,传统认知理论将人脑看作是符号处理系统,因而采用的是本地表征(localist representation)方法。本地表征的基本特点是一个信息加工的单位(或单元)只表达一个概念(例如语素、字、词等),而一个概念也只由一个单位来表达。这样,表达单位不能进一步分解为更小的单位,因为它与概念间有清楚的一对一的关系。而分布表征认为词汇知识在心理词典中被分解成更小的单元,类似我们人脑的神经元,并且具有某种意义关系的词语共用部分相同的意义单元,比如“猫”和“狗”是两个不同的动物,但是两个词存在很多的相同的意义单元,如“哺乳动物”、“有毛”、“四条腿”、“宠物”等,但是两个词之间也有很多不同的单元,如“猫”和“捕鼠”、“食鱼”、“体型小”等关联,“狗”则具有“食肉”、“啃骨头”、“体型大”等特征,心理词典的表征实质上就是语义单元的分类组合过程。