潜伏语义分析的理论及其应用

作 者:

作者简介:
桂诗春 通信地址:510420 广东外语外贸大学外国语言学及应用语言学研究中心

原文出处:
现代外语

内容提要:

人们为什么能够在他们所得到的稀少信息基础上获得那么多的知识?对这个柏拉图问题有各种各样的回答。潜伏语义分析(Latent Semantic Analysis,LSA)使用了奇异值分解的线性代数的方法说明减少维数有助于揭示语义的潜伏关系,本文举了两个事例来加以说明:一个是对包括了计算机人机对话和数学图论两个内容的九篇文章题目进行分析,两个原来无甚联系的词经处理后却有很高的相关(.90)。另一个是对中国学生英语失误的关系的分析,减少维数后能更好地解释五种水平不同的学习者的拼写失误、用词失误和句法结构的发展趋势。LSA在文本处理方面有广泛的应用范围。


期刊代号:H1
分类名称:语言文字学
复印期号:2003 年 06 期

字号:

      [中图分类号]H195 [文献标识码]A [文章编号]1003-6105(2003)01-0076-9

      1.柏拉图问题谈起

      从古希腊哲人柏拉图(Plato)开始,人们就为一个关于认知的神秘问题所困惑:人们为什么能够在他们所得到的稀少信息基础上获得那么多的知识?这个问题有时被称为柏拉图问题(注:在柏拉图对话录里,有几处接触到知识来源问题。他在Meno里指出,灵魂是不灭的,已经学习了所有的事物,所以真正的学习无非是回忆内在的、忘记了的事物;在Phaedo里,他又把内在论和形式理论联系起来,例如“平等”的形式不可能来自实际的观察,而是与生俱来的;在Cratylus里则认为,词语是天生(physis),不是约定俗成(nomos)的。),有时被称为“刺激的贫乏”、“缺乏负面证据”或语言习得的逻辑问题。这个问题引起了哲学家、心理学家、语言学家、计算机科学家的广泛兴趣,各自提出不同的解释。Chomsky派(注:Chomsky(1965,1986,2000)在不同场合都以儿童词汇习得为例反复说明这个问题,因为“负面的证据”已成为他的语言共项论的主要支柱:Pinker(1994)从进化、历史、解剖、生理和儿童发育的不同角度观察了语言的起源,认为语言习得一定是建筑在一个强有力的和特殊的内在机制,并称之为“语言天性”。)秉承了柏拉图和笛卡儿的观点提出了“天赋论”或“内在论”,对这个问题作出了一种回答。但是心理语言学家MacWhinney(注:Brian Mac Whinney最近在广东外语外贸大学召开的心理语言学与外语教学讨论会上谈到,在他所提出的竞争模型里没有负面的证据,只有正面的证据。)、自然语言处理家Sampson(注:Geoffrer Sampson(1997)写了一本关于语言天性争论的专著Educating Eve,认为负面证据之说是自我矛盾的。在Empirical Linguistics(2001)里,更进一步指出,负面证据是内省法臆想出来的。我们没有负面证据也能归纳出万有引力定律,为什么要编一本故意把of of the of(负面证据)排除在外的语法?)却对此提出质疑。哲学家Quine对这个问题做出另一种回答,他举了一个所谓"Gavagai"的有趣的例子:一个到外国访问的人看到一只兔子,偶然听到他的资料提供人说gavagai。在这种证据贫乏的情况下,gavagai可以指“兔子”(一个完整的事物),“有皮毛的”(事物的未分离部分),或“天气不错,是吗?”(事物发生的时间段),他认为纯粹以经验为基础的客观真理和意义根本不存在,这简直是“归纳法的耻辱”(scandal of induction)。对田野作业的语言学家来说,分析和综合的区别并不存在。进化心理学家Shepard(1987)却认为柏拉图问题是心理学的核心问题,关于概括和相似性的普遍理论对心理学就等于牛顿定律对物理学那样重要。

      尽管大多数人都承认语言能力的遗传性,但是这种生物机制的存在并没有解决Shepard所提出的概括(在母语习得里,更成为“过度概括”)和相似性的问题。这个归纳性难题经常被看成是范畴化的问题,那就是说我们必须找出的这样一个机制,足以把一系列刺激、语词或概念(例如猎豹和老虎)看成是一类的(相似的)事物。但是相似性以什么为基础却众说纷纭,有特征论、原型论,范式论、心理本质论、心理语境论,等等,不一而足(桂诗春2000)。这些理论模型都旨在提出一些制约,以缩小归纳(也就是说学习)所要解决的问题空间。就儿童词汇习得而言,一些心理语言学家假设存在一些对词语赋予意义的制约,儿童在早期习得词汇时都假定:多数词语在感知上都是对应物体的名称;两个词通常都有两个不同的意义;享有共同声音的词语通常都是意义上相关的;一个不熟悉的言语声音可能指一些儿童还未能掌握其对应词的东西。但是这也不是没有问题,Landauer与Dumais(1997)指出,一个问题是我们不知道某一个制约是否真正存在;少年儿童虽然假定相同的物体只有一个名称,但是他们所接触的语言是否也是这样呢?又如某一种制约的产生是逐步进化的,还是通过认知而起作用的一种普遍性制约?还有一个问题是,某些制约的存在和产生出于逻辑的需要,但这又是不够的,可以从3方面看:1)某一套制约是否逻辑上和语用上充分,也就是说使用了它们以后是否就能解决问题?例如儿童认为没有同义词,这在多大程度上能帮助他们学习词汇?2)和方法论有关,怎样才能获得前一个问题的答案?怎样知道某一些特定制约的组合应用到自然环境的输入时才能解决问题?3)怎样决定一个提出来的模型是否具有心理现实性?Landauer认为要解决这些问题必须使用模拟的模型。而他和其他几个研究人员Foltz、Dumais、Deerwester、Furnas等人(Deerwester et.al.1990)所提出的,而又得到著名语篇研究者Kintsch支持的模型就是潜伏语义分析(Latent Semantic Analysis,LSA)。这是一个多维数的线性组合模型,“这个模型只是一个普遍的学习机制,本身并不体现人类知识,但是它通过分析一个很大的自然语言文本语料库来生成一个足以体现词语和文本片段的相似性的表征。”

      2.LSA的理据

      从潜伏性语义分析的角度看来,归纳就是减少维数(reduction of dimensionality)。Landauer举了一个形象的例子,一个人站在高原上打电话告诉他的朋友三间房子的位置,A和B、A和C的距离都是5个单位,而B和C的距离则是8个单位。在他的朋友脑海里就形成一个两个维数的三角形。如果他继续补充说,这三间房子是在一条直线上,他的朋友就会说,他一定是看错了这三个房子的距离。A和B、C的距离应该是4.5个单位,而B和C的距离应该是9个单位。因为在一个两维数的三角形里,其底边应该是其他两个边的和。这说明,减少维数可改善估算。在研究工作中,研究人员往往通过减少维数来降低计算的复杂性,即把数据作平滑化处理:简化数据并填补所缺的节点。在东京召开的联合国大学主持的混沌对科学和社会的冲击学术会议上,两个著名的混沌学专家Feigenbaun和Aihara就一致认为,人脑由100亿个神经元组成,而我们要对它的相互作用进行观察只能选取一个极低的维数。(注:这次大会的文集我国已由杨立、刘巨彬等译,刘式达、杜先之等校,湖南科学技术出版社出版,题为《混沌:对科学和社会的冲击》,两人的对话见该书394-395页。)在统计学中,这种减少维数的方法,例如因子分析、多维数量表也经常被采用,Osgood(1971)在70年代所做的语义微分分析就用过因子分析。同样地,我们也可以把两个词的语义相似性表示为距离:距离越近,相似性就越强。假定两个词在一个语篇单位(短语、句子或段落)中出现的频率和它们的语义距离成反比例(频率越多,距离越近),那它们就和语义相似性直接相关。我们可以通过观察两个词在同一单位中出现的相对频率来估算出其语义相似性。因为人们进行交际时,都会使用一些基本成分(如词),使两个词语中存在某种相对的相似性。发送者会选择同一语义空间彼此相近的词,它们就会有不同的语义距离;而接收者则会按照它们在同一上下文中的相对频率来估算这些距离。但是自然语言中的词语数量极为庞大,而接收到的词语却数量极少,例如两个词的频率都是百万分之一,它们虽然有相关的意义,也不大可能会一起发生。可是如果我们的接收机制按照统计知识把接受到的词语表示为相似的语义空间,即同一个维数的各个节点,情况就会大大改善。

相关文章: