1.研究背景 语言是一个复杂系统,其组成单位的意义取决于它们之间的相互关系。语言系统作为一个整体,具有其组成单位个体所不具备的特征。现代网络科学为语言复杂系统的研究提供了合适的数理模型(陈衡、刘海涛2023)。目前,语言网络建模研究在语言类型学(Liu & Li 2010)、语言习得(Freeborn et al.2022;韩笑等2021;冯学芳、刘洁2023)等方面取得了丰硕成果。建模对象涵盖了语音(Siew & Vitevitch 2019;Luef 2022)、语义(Hills et al.2009;Beckage et al.2011)、语法(Liu et al.2021)等诸多方面,形成了相对成熟的技术路线。语言网络建模与网络特征提取,为语言学提供了新的研究方法和证据来源。 失语症指优势大脑半球的语言功能区受损而引起的获得性语言障碍(张通等2022)。失语症患者通常在词汇提取、句子和话语产出等方面存在不同程度的困难,影响其人际交流。Castro et al.(2020)构建了语音语义多层词汇网络来分析失语症患者在不同词汇命名任务中的准确率差异。发现处于网络中心的词汇激活程度和命名准确度更高,词汇在语音或语义网络中的位置和相互关系可以解释命名错误词和目标词之间的关系,说明词汇网络特征对失语症患者词汇提取加工具有影响。然而,词汇命名任务所涉词汇类别和数量有限,且其较为简单,交际真实性不强。 话语产出是句子以上层面的语言产出。目前,失语症患者话语产出研究侧重于比较失语症患者与健康人群在词汇(如词汇类型、词汇丰富度等)或者句子层面(如句子长度等)的语言学特征差异(Deng et al.2024a,b),尚缺乏基于失语症患者话语产出语料构建网络模型并提取网络特征的研究。 基于话语产出语料构建网络模型的研究,目前主要聚焦于语言发育迟缓儿童和阿尔兹海默症老人等人群。基于儿童话语语料的网络模型研究发现,语言正常发展儿童和语言发育迟缓儿童习得词汇数量差别不大,但正常发展儿童的词汇语义网络在宏观层面的连接密度和通达性方面更好(Beckage et al.2011)。基于老人话语语料的网络模型发现,汉语阿尔兹海默症患者句法网络中的平均依存距离低于健康人群对照组,微观层面核心句法功能词的连接也存在损伤(Liu et al.2021)。这些研究说明,语言网络特征能够揭示传统语言学指标(如词汇数量、句子长度等)无法揭示的差异。然而,国内外均缺乏失语症话语产出中的词汇网络特征研究。失语症作为一种语言损伤综合症,必然导致语言网络宏观(网络结构)、中观(集群结构)和微观(节点特征)层面的变化。因此,有必要借助现代网络方法,对其进行整体建模,从而更全面、深入地揭示失语症患者语言系统受损的整体情况,为语言障碍评估提供新角度。 鉴于此,本研究基于汉语失语症患者在不同话语产出任务中的语料构建词汇网络,并与健康人群进行比较,分析失语症语言网络特征。具体回答以下问题:与健康人群相比,汉语失语症患者话语产出中的词汇网络,1)宏观结构有何特点?2)中观集群结构有何特点?3)微观核心词汇节点及连接模式有何特点? 2.研究方法 2.1 语料来源 本研究使用国际失语症语料库平台(Aphasia Bank,MacWhinney et al.2011)中的汉语普通话失语症数据集①进行语言网络构建。该数据集参照国际失语症语料库收集标准,并根据中文语言文化对部分话语产出任务进行了相应调整,相关任务获得国际失语库认可与采纳(陈珍珍等2018)。 在该数据集中,失语症患者以命名性失语为主,布洛卡失语、威尼克失语和传导性失语各1例,经皮质运动性失语2例(诊断依据为西方失语症量表,Kertesz 2006)。布洛卡失语症患者话语产出少且不流利、威尼克失语症产出话语大多无意义,因而被本研究排除。命名性失语症患者则能够理解任务并进行一些有意义的话语产出。为保证失语症组内部的相对同质性和样本量,本实验选取了15名命名性失语症患者。同时,我们从该语料库81名健康人群对照组中,筛选数据完整、年龄段和教育程度与15名命名性失语症患者相匹配的15名被试作为对照组(见表1)。统计分析显示,失语症和健康对照组的失语商存在显著差异(t=7.49,p=.000),而年龄(t=1.7,p=.099)和教育年限(t=-0.06,p=.955)均无显著差异。

失语症数据集包含五种不同类型的话语产出任务:寒暄问答、图片描述、故事叙述、过程讲述和自由说话。我们选取了可比性较强、个体差异相对较小的图片描述、故事叙述和过程讲述三个任务。其中,图片描述任务是对“打破窗户”组图的描述,故事叙述任务则让被试讲述“狼来了”的故事,过程讲述任务要求被试描述蛋炒饭的制作过程。具体任务信息见http://talkbank.org/manuals/Clin-CLAN-zho.pdf。 2.2 语料提取与加工 汉语普通话失语症数据集中的话语产出已用CLAN软件(MacWhinney et al.2010)进行了人工转写,并进行了发音错误、重复、打断等现象的编码和校验。我们在预处理阶段去掉了错误和不流利部分以提高机器分词效率和精度。随后,采用国际上失语症话语研究领域使用最广泛的CLAN系统自带算法对语料进行了分词和词频提取。由于话语产出本身句子较短,且内容较为简单,基于现有汉语失语症研究文献(Deng et al.2024a,b),机器分词错误率在可接受范围内。