汉语话头话身关系分析影响因素研究

作 者:

作者简介:
卢达威,中国人民大学文学院讲师、中国人民大学数字人文研究院研究员(北京 100872)。

原文出处:
学术研究

内容提要:

话头话身关系主要指标点句间的话头共享关系,话头话身关系分析目的是补全标点句的缺失话头,或称话头识别。基于语料库的研究发现,话头识别涉及句法、语义、常识、百科知识以及语境等因素。其中,语义特征话头识别中最基本的影响因素,包括话头和话身的语义关系、话身本身的语义类型等;句法特征对话头识别的准确性高但覆盖率低,包括关联词语、平行结构、语篇停顿等;常识和百科知识主要用于选择经过句法、语义关系分析后仍未能确定的候选话头;语境因素主要是在句法、语义识别话头有误时进行核查和纠正。话头识别过程中,各种影响因素的调用顺序和互动的过程值得关注。对汉语话头话身关系分析有助于深化对语篇结构规律和语言理解过程的认识,也有助于语言的计算和应用。


期刊代号:H1
分类名称:语言文字学
复印期号:2024 年 04 期

字号:

      一、话头话身结构和话头话身关系分析

      话头话身关系是话题说明关系的扩展。汉语是话题显著型语言。在单句层面表现为“主语即话题”;①在篇章层面,话题可以通过平行推进或层级推进等零形回指方式②以及其他方式被后续的小句谈论,从而构成超越单句的“主题链”③或“汉语句”④。宋柔⑤对单句层面和篇章层面中的“话题/主题”概念进行了统一和扩展,认为被谈论的成分既可以是单句层面的,也可以是篇章层面的,而且不仅可以是体词性成分,还可以是谓词性成分、环境成分、状语性成分,甚至介词、连词等,⑥故使用了“话头(naming)”的说法,以免与传统话题混淆。话头所对应的说明成分则称为“话身(telling)”。一个话头可对应多个话身,话头及其所有话身组成的结构叫“话头话身结构(Naming-telling Structure)”。

      在实际语料中,话头话身结构的概念更有利于语篇结构描写。语篇是由一个个标点句⑦构成的,但超过50%的标点句句法或语义不完整。⑧这些句法语义不完整的标点句大多能够在上文(少数情况是下文)找到所缺失(或称共享)的“话头”,这些标点句本身就是“话身”,从而形成话头话身结构。与话题说明不同的是,话头话身结构允许层层嵌套,一个话头话身结构允许话身是一个话头话身结构。在话头话身结构理论中,标点句通过话头话身关系组成话头话身结构,进而组成篇章,形成了“标点句—话头话身结构—篇章”的语篇组织方式。本文研究话头与话身的关系,是要探究标点句如何通过话头共享组织成话头话身结构;以及通过研究话头补全过程,探究语言认知和理解的过程。为清晰展现话头话身结构,我们将整个篇章按照每个标点句占一行的方式来排列,并将话身标点句缩进到话头的右边,这样就可以把话头和话身的关系直观展现(如表1),这种篇章表示方法称为“换行缩进图式”。⑨

      

      表1是宾州中文树库(Chinese Tree Bank,CTB)的一段新闻语料,我们用换行缩进图式对这段新闻进行排列后,得到了如表1所示的呈现形式。从话头话身结构的角度看,整体段落7个标点句(c1~c7)构成以“西藏银行部门”为最外层话头的话头话身结构(例中话头用“□”表示)。“西藏银行部门”的话身有三个,分别是“积极调整信贷结构”(c1)、目的连词“以”为话头的话头话身结构(c2~c3)和以“去年”为话头的话头话身结构(c4~c7)。其中“去年”的话身也有3个,分别是以“新增贷款”为话头的话头话身结构(c4~c5),“农牧业……亿元”(c6)和“乡镇……点八三”(c7)。从标点句的角度看,除c1不缺话头外,c2~c7都缺少部分话头,有的缺少一层话头(如c2和c4),有的缺少两层话头(如c3、c6、c7),有的缺少三层话头(如c5)。以c5为例,“比上年增加八亿多元”不完整,缺少话头。检索上下文发现c5说的是“新增贷款”(在c4),属于实体话头;⑩补全后看似完整,再往前还发现环境话头“去年”(在c4),这是“新增贷款比上年增加八亿多元”发生的时间;再往前发现c5还有另一实体话头“西藏银行部门”(在c1),这是“新增贷款”的领有者。再往前已没有其他能够进一步补充说明c5的部分了,至此,c5补全话头后完整的信息应该是“西藏银行部门去年新增贷款比上年增加八亿多元”,补全后的句子叫作“话头话身自足句”(Naming-telling Clause)。其中,“新增贷款”是直接话头,“西藏银行部门”和“去年”都是间接话头。

      以上对表1的分析发现,识别各标点句的话头需要对标点句进行话头话身关系分析。话头识别的研究可以帮助我们了解人在阅读理解时对标点句的认知过程,进而帮助计算机进行话头话身结构自动识别。但这是一项复杂的任务。对人来说,凭语感进行话头识别很容易,这个过程甚至是无意识的。但我们更想知道,所谓的“语感”究竟包含了哪些内容?也就是说,人在话头话身关系的识别过程中,究竟调用了哪些语言特征和语言知识?以及这些特征和知识如何协调和互动?哪些因素起了关键作用?调用顺序如何?对这些问题的研究,一方面从语言认知的角度,能够对人类语言理解有更深刻的认识;另一方面,从语言计算的角度,话头话身结构识别可以检验语言学知识和规律的正确性,也有助于计算机信息抽取、信息摘要、机器翻译等工程应用。

      本文正是在已有话头话身结构理论的基础上,从语言认知和语言计算的角度出发,分析话头话身关系,挖掘话头识别过程中所涉及的影响因素和因素间的互动关系。为此,我们构造了一个“话头话身结构语料库”,对30963个标点句、约37.8万字的语料进行了人工的话头话身结构标注,内容涉及百科释文、小说和政府工作报告等语体类型。其中,百科释文包括生物、地理、历史事件和人物4种题材;小说包括当代小说、现代章回小说和古代白话小说。考察语料发现,话头话身关系涉及语义、句法、语境、常识、百科知识等影响因素。以下我们将对这些影响因素逐一考察。

      二、影响话头话身关系分析的语义因素

      考察语料发现,话头话身分析中最主要的影响因素是语义知识,这是标点句话头识别分析的基础。语义知识对人来说显而易见,但从语言理解过程看,我们不知道自己调用了哪些知识以及这些知识的调用过程。从语言计算角度,理解语义则是比较困难的。虽然人工智能大语言模型(如ChatGPT等)已具有一定的语义知识,但这些模型是一个黑箱,无法知道其识别过程,且对语义的理解不稳定。因此,我们仍需要对影响话头话身关系的语义因素进行挖掘。目前发现的语义特征有以下类型。

      (一)话头和话身主要谓词的语义关系

      这主要是指话头和话身谓词的语义搭配关系(如表2)。表2展现了语料中最普通的话头话身结构,其中c1不缺话头,c2缺少话头。从语言认知过程看,c2的话头补全过程如下。首先,判断c2缺话头的原因。本句缺少话头的原因是核心谓语“倒酒”的论元数量不足,“倒酒”缺少语义上的主体论元。第二,判断缺失话头的类型。根据语义常识,“倒酒”的主体应该是人。第三,查找c1的所有成分(“小姐”“启开”“酒瓶”),并逐一识别其语义类型(“小姐”是人,“启开”是动作,“酒瓶”是物品)。第四,匹配c2对话头的语义要求和c1的候选话头语义类型,得到c2的话头是“小姐”。从语言计算的角度,以上认知过程可以形式化为话头识别的基础算法,其中语义搭配知识和语义类型知识可以从语义词典(11)或者语料统计中获得。

相关文章: