从线性位置看神经网络模型中语言规律的获得与表征

作 者:

作者简介:
张子豪,男,北京语言大学计量语言学研究中心在读博士研究生,主要研究兴趣为计量语言学和神经网络语言模型,E-mail:johnthehow@qq.com;刘海涛,浙江大学外国语学院,E-mail:htliu@163.com。

原文出处:
当代语言学

内容提要:

采用位置编码的Transfomer语言模型,超越前代循环神经网络(RNN)语言模型,在各项语言任务中均表现优异,表明该系列模型通过对语料的学习获得了文本数据中的语言规律。相较于前代RNN语言模型,Transformer模型加入的线性位置编码机制,为模型充分利用语言数据中的涌现规律提供了新的路径。然而,语言规律表征形式的差异以及语言学传统研究中对词的线性位置研究的忽视,使得研究者未能关注到这一浅层特征中蕴含的规律。本文通过探索六种印欧语中功能词的线性位置分布,揭示了其中的规律性和高度可预测的分布模式,即功能词线性位置分布的句长稳定性、历时稳定性以及跨语言近义词线性位置分布的相似性,并探讨了这些规律的语言学意义。同时,本文通过对基于Transformer的神经网络语言模型注意力矩阵的研究,发现语言模型能够充分利用位置编码提供的位置信息,即掌握了线性位置分布中潜在的语言规律。研究也揭示了线性位置分布对于语言规律表征的价值。


期刊代号:H1
分类名称:语言文字学
复印期号:2024 年 04 期

字号:

      1.引言

      近年来,基于神经网络的语言模型在各项自然语言处理任务中均取得了接近甚至超越人类基线的表现。这一事实表明,尽管此类模型只在无人工标注的平白文本语料上进行端到端训练,却掌握了人类语言中的诸多规律。经典语言学理论使用包括转换生成语法、中心语驱动短语结构语法、词汇功能语法和组合范畴语法在内的基于符号和规则(原则)的形式化语法描写语言规律,而神经网络语言模型以实数权重矩阵的方式表征其获得的语言规律①。两种表征形式的差异,使研究者探索语言模型如何“习得”语言规律的尝试显得尤为困难。

      尽管如此,前期研究仍尝试对神经网络语言模型“习得”的语言知识进行探索,并认为语言模型掌握了语言知识的诸多方面(Belinkov and Glass 2019)②。然而,不论是对模型最终阶段输出的下游测试(如以benchmark形式进行的模型测试),还是以诊断分类器(diagnostic classifier)方法为代表的对模型中间阶段表征的测试,本质上都是对模型语言能力的行为主义研究,其证据是间接的,并未触及模型“习得”的语言知识的具体表征形式。此外,上述方法对于模型表现的解释完全依赖经典语言学理论提出的模型实体(如词类和语义角色),带有过强的理论假设。事实上,没有证据支持神经网络语言模型依靠类似于词类和语义角色的概念表征其内部的语言知识(Lappin 2021)。

      尽管有前期研究尝试直接向神经网络语言模型输入语言知识,然而经此类方法强化的模型并未显著优于仅用平白文本训练的模型(Lappin 2021)。更有研究显示,模型仅依靠浅层特征就能在多项测试任务中得到良好表现(Lakretz et al.2019)。上述事实表明,语言模型能够从浅层特征中学到语言规律,但其对规律的表征形式与经典语言学理论中提出的符号与规则形式并不相似(Rogers et al.2020)。

      基于Transformer的BERT和GPT系列模型,在各项测试中均超越了此前基于RNN的模型。除了引入多头自注意力机制(multi-head self attention)外,基于RNN的模型和基于Transformer的模型最明显的区别在于后者加入了位置编码/嵌入(position encoding/embedding)机制从而可以显式地利用词在句中的位置信息。应当认识到,语言模型的语言知识来自数据的分布而非模型架构本身(Chan et al.2022)。我们认为,不是位置编码机制本身编码了语言知识,而是该机制的引入,使得模型能够从语言数据中获取蕴含在绝对位置分布中的语言规律。换言之,线性位置编码机制的加入为语言模型增加了一种新的“感官”。因此,本文关注词在句中的线性位置这一浅层特征,通过对其统计特性的考察,了解模型能够从中获得的语言规律。

      词的线性位置在语言学传统中是被忽视的。对于语言单位线性位置的研究,从根本上讲只能在较大的语料上以统计方法进行,语言学传统中基于内省和个别语例的研究方式,限制了研究者对这一属性的探索。位置这一概念在经典语言学理论中通常是指相对位置(语序或成分顺序)。语序也通常是指词类而非词的顺序。并且,对词类顺序的研究也更多地集中在短语和小句而非整句的范围中。此外,句法理论传统中,研究者着重强调语言的层级性,在这一背景下,语言单位的线性位置常被有意地弱化。但正如索绪尔所指出的,能指的线条性(linear nature of signifiers)是能指最本质的特征,“但似乎常为人所忽略,无疑是大家觉得太简单了。然而这是一个基本原则,它的影响是数之不尽的……语言的整个机制都取决于它……听觉的能指却只有时间上的一条线;它的要素相继出现,构成一个链条”(de Saussure 2011:70)。自然语言处理领域的研究显示,在上下文语言模型中,即便同一个词的向量表征也会受到其在句中位置的影响(Mickus et al.2020);此外,前期研究也表明,线性位置这一特征中蕴含丰富的语言知识,尤其表现在对语言单位频率这一属性的影响上(Yu et al.2023);更有研究显示,神经网络语言模型高度依赖词的位置预测其语义角色(Linzen and Baroni 2021);线性位置同时还是更抽象的语言特征,如依存距离和依存方向这类概念构建的基础;最为重要的是,词的线性位置这一属性是无歧义的,这一特性,使得它一方面能够被基于Transformer的神经网络语言模型直接编码,另一方面也能够为语言学研究者所认识。

      在各词类的线性位置中,本文尤其关注功能词,这是因为其在语法中的重要性:首先,功能词在文本中的占比超过50%(Cutler and Carter 1987);其次,功能词是句子结构的框架,它们将实词组合在一起并表明它们之间的关系(Hopper and Traugott 2003);再次,功能词有助于词类和短语边界的识别(Bock 1996;Gervain et al.2013),例如,冠词the总是与名词相邻出现从而构成NP语类并标识NP语类的边界;个别功能词的位置还反映了句子的信息结构,例如,人称代词总是标识句子中的旧信息(Gundel et al.1993),其位置实际上反映了句子的信息结构。自然语言处理领域的研究也表明,神经网络语言模型尤其依赖功能词以获得其句法能力,没有功能词作为提示时,模型预测更容易出错,且这种依赖甚至表现在对无意义的句子的处理之中(Gulordava et al.2018)。因此,对于功能词的研究也是对自然语言语法的研究。

相关文章: