数据驱动的应用语言学研究

作 者:

作者简介:
刘海涛,浙江大学外国语言文化与国际交流学院,E-mail:htliu@163.com(杭州 310058)。

原文出处:
现代外语

内容提要:

语言是一个人驱复杂适应系统,概率性是其本质属性。基于使用的方法是一种数据驱动的研究方法,数据驱动的理念则与建立在深度学习基础之上的现代人工智能领域相一致。基于使用的方法不仅可以加深对语言、言语和意义等语言学基本问题的理解,而且也有助于对语义计算、过渡语的特征、语言系统的涌现性、适应性、动态性等应用语言学基本问题的解决与探究,是一种面向21世纪的语言研究方法。


期刊代号:H1
分类名称:语言文字学
复印期号:2022 年 04 期

字号:

      桂诗春(2015)认为,“基于使用理论对认识语言变化乃至语言习得都意义深远。”对于语言研究者而言,基于使用不外乎就是从大量人类的真实语言材料中发现语言系统的运作规律,是一种数据驱动的方法。为什么如此显而易见的道理,会对语言研究具有深远的意义呢?接下来,我们将围绕桂文提及的几个问题,谈一点自己的看法。

      2.语言与言语可以分离吗?

      要回答这个问题,可能还得回到现代语言学之父索绪尔对语言与言语的区分。尽管索绪尔前后的学者,也使用过相同或不同的术语来区分语言系统的具体(个体)与抽象(集体)层面,但索绪尔的影响毫无疑问是最大的。“语言学的唯一的、真正的对象是就语言和为语言而研究的语言”(索绪尔1980:323)。这句话在结束《普通语言学教程》的同时,也使现代语言学走上了一条见不到人的人类语言探索之路。当然,我们不否认,将人这个复杂因素从语言理论研究中剔除后,似乎更容易发现语言作为一种形式符号系统的规律。这些发现不仅催生了结构主义,也为计算机程序设计语言奠定了一定的理论基础。然而,语言终究是人的语言。人工智能时代的到来,使得人类比任何时候都需要语言学家,但遗憾的是,这些本该是世界上最懂语言的人,却集体失语了。为什么?是我们的方法不对?所发现的语言知识的表征有问题?还是语言规律本身就难以脱离语言使用而存在?抑或是语言与言语就无法分离?如果无法分离,索绪尔为何要把它们分开?也许,是我们对索绪尔的理解有误?

      带着这些问题,我们在《教程》中发现了以下语句:“但语言是什么呢?它只是言语活动的一个确定的部分,而且当然是一个主要的部分。……在由言语活动联系起来的每个个人当中,会建立起一种平均数。……如果我们能够全部掌握储存在每个人脑子里的词语形象,也许会接触到构成语言的社会纽带。这是通过言语实践存放在某一社会集团全体成员中的宝库,一个潜存在一群人的脑子里的语法体系;因为在任何人的脑子里,语言都是不完备的,它只有在集体中才能完全存在”(索绪尔1980,0.3章节)。由此可见,语言与言语是密切相关的,索绪尔自己也认为“语言和言语是互相依存的;语言既是言语的工具,又是言语的产物。”但他接着又说“这一切并不妨碍它们是两种绝对不同的东西”(1980:41)。假设这些说法都是有道理的,那我们自然会提出以下问题:如果语言是言语的抽象,是平均数,那仅用基于逻辑代数的形式化方法来研究,可能是不够的,而应想办法寻求一种计算平均数的方法,使语言尽可能逼近人类的语言系统。如果没有一个人的语言是完备的,那么,采用内省法研究语言所得出的结论,是难以反映语言系统运作规律的。如果语言源于言语,而且还是“确定”的部分,那该用什么方法来确定这个“确定”呢?特别是,言语本身又是动态的,是不断变化的?如果语言来自言语活动,是集体的产物,任何脱离人类日常语言的、过于抽象的数理方法,所发现的所谓语言规律,可能都难以被需要语言规律的其他领域所使用。这或许就是语言学家在智能时代失语的根本原因之一。

      事实上,从索绪尔的话语里面,我们不仅看到了问题,也看到了解决这些问题的思路。今天的我们,要比100多年前的索绪尔更有办法从大量的言语(语言使用)材料中获得语言这个平均数。理论上,数据越多,这个平均数就会越接近这种语言使用者集体的语言。这种由数据产生智能的思想也正是当今人工智能技术的核心(Sarangi & Sharma 2020)。平均数的概念,也揭示了语言的概率特质,而概率规律的发现必须有数据,这使得语言研究与语言使用数据之间有了一种天然的联系。我们不难看出,把语言与言语视为两种“绝对”不同的东西,可能有些“绝对”,或许只是一种时代的局限。因为,100年前的人,很难想象有朝一日,他们的后人会有办法从数百万人说的数以亿计的言语中得到一个更接近集体语言的平均数。也许,现在正是语言学研究者走出“花园”,走进人类语言“灌木丛”的最好时机(Bresnan 2016)。数据驱动的方法,也有助于解决有关语言结构与演化的“索绪尔悖论”(Millar 2015:250),从而使语言学家走出静态共时的魔圈,直面人类鲜活的日常语言。

      从“花园”走向“灌木丛”的最大挑战来自语言的概率性。尽管基于使用的方法可以让语言学回归经验(实证)科学,可以更好地处理语言变化、动态、习得等问题,但我们能够使用的不外乎是各种语言单位的出现频率。如果我们打算把语言视为一种基于使用(言语)的概率系统,那么频率结构应能反映语言的普遍性、语言的变化和个人语言的风格。于水源等人采用100多种语言和300多位作家历时200年的语料研究了这些问题。结果表明,词频结构不仅能够刻画语言的普遍性,也可以追踪语言的历时演化轨迹和区分共时的个人语言变体(Yu et al.2020)。换言之,通过词的频率结构,我们不仅可以发现语言的普遍性,也可以观察到语言的多样性,并在历时变化和个人变体的多样性中探索语言的统一性。正是人类语言这种普遍性蕴含于多样性的特质,使得变化不断的语言仍能作为稳定的人类交流工具。这项研究在一定程度上为构建基于使用的语言理论打下了基础。

      基于语言使用的方法打破了语言与言语的界限,将二者打通不仅有助于解决抽象的形式方法不易解决的问题,也使语言学家可以直面日常语言的“灌木丛”,发现语言系统运作的真正规律,服务于需要语言规律的领域。

      3.系统、使用和适应

      索绪尔认为,“语言是一个系统,它的任何部分都可以而且应该从它们共时的连带关系方面去加以考虑”(1980:127)。尽管索绪尔在这里只是将语言视为一个符号系统,但也可以看出语言研究也应像研究任何其他系统一样,通过研究成分之间的关系来更好地了解系统的结构规律。按照此前提到的“平均数”的说法,一个词的意义是在大量的语言使用中获得的。没有词的使用,也就无法获得词与其他词之间的关系,也就无法获得所需的平均数。从这个意义上讲,索绪尔的系统观也是一种基于使用的观点,而不宜简单地将其理解为一种形式逻辑关系。如果语言是一个系统,就应该采用研究系统的科学方法来研究,但为什么人们却不断尝试用各种符号逻辑等形式化的方法来研究它呢?其中的一个原因可能是人类,特别是其中最有知识的一部分人,认为可以找到一种更完美的方式来表述我们用自然语言表达不清的东西。在研究分析了人类2000年来寻求完美语言的历史之后,Eco(1995)认为,虽然这种寻求带动了诸如知识表征与分类等领域的发展,但所寻求的目标是难以达到的。这可能从另一个角度说明,人类日常语言尽管有这样那样的问题,但却很难找到更完美的替代品。逻辑语言在精确化方面的优势,抵不过它在表现力方面的劣势。而对于人类来说,日常语言更能满足他们表达这个丰富多彩的世界的需要。在哲学史上,从逻辑语言转为日常语言的代表性人物是被罗素称之为“天才人物的最完美范例”的维特根斯坦。在维特根斯坦1921年发表的《逻辑哲学论》中,我们不难看到弗雷格、罗素和怀特海等人的影子,也再次体会到人类对日常语言的失望以及对完美语言的希冀。然而,在1953年的《哲学研究》中,维特根斯坦对日常语言的态度有了一个180度的转变。他认为,哲学家要用日常语言说话,在使用中考察词的意义,而不是脱离用途,孤立地考察所谓的绝对意义。只有这样,才能医治空洞的哲学病(形而上学),让“我们把词从形而上学的用法重新带回到日常用法”(维特根斯坦2001:73)。

相关文章: