一、引言 在汉语中,动词和名词是数量最多、使用最频繁的两大词类。然而,现代汉语没有发达的形态,难以直接识别词类,因此词类关系——特别是动词和名词的关系——极为复杂。汉语的动名两范畴边界模糊,存在大量兼类词。复杂的动名关系在本体研究(许群爱、邓云华,2024)、语言教学(朱志平,2013)、语言处理(杨丽姣等,2019)等领域引发了诸多关注。动名兼类词、动词、名词间的关系仍需要进一步的思考。 学者们对汉语的动名问题做了详细探讨。沈家煊(2007)提出“名动包含说”,系列研究建立起了一个动词包含于名词的汉语词类格局。但支持者有之,反对者亦有之。比如,陆俭明(2022)对比了名动分立和名动包含,指出后者解释能力有限,并且缺乏实际操作方案。沈家煊则先后援引施关淦文章、厘清名词的定义问题予以回应(沈家煊,2023a、2023b)。金立鑫(2022)质疑了名动包含说的逻辑基础,孙崇飞(2022)结合了汉语和印欧语的语言类型差别做了反驳。何清强、王文斌(2016)支持名动包含说,认可汉语的动词在语用上具有指称功能。吴义诚(2023)则提出批评,认为名词在句外一般具有指称性,但入句后则未必作指称语。虽仍未在动名格局上达成共识,但学界越发意识到语义在其中的重要性——动名词类范畴的模糊来自其语义的共通,因而有发生转用(名词化、动词化)的潜在可能(骆琳、穆柔云,2021)。已有研究一定程度上揭示了动名兼类的语义基础和表现,但仍存在一些不足,语义研究的理论和范式难逃其咎(沈家煊、乐耀,2013)。具体到动名问题上,主要症结在于:(1)过分着眼于微观,易陷入过拟合的僵局,即能较好解释所研究的特定结构,但推广到其他相关结构和整个系统时表现欠佳;(2)过度依赖语感,语料选择建立在因人而异的语感上,而非客观的使用频次、类型分布,有用典型例证以偏概全和以极端个案否定普遍特征的风险;(3)词类语义描写的一致性和形式—意义对应性差,同一问题不用或者不能用同一方法处理。这些问题期待研究范式和语言学理论的更新。 更新要建立在对语言事实(特别是动名词类相关语言事实)的正确认识上(陆俭明,2022)。那么,这个最基本的动名事实是什么样的呢?动词范畴和名词范畴内部并非均匀混合,有些成员的归属比较容易判断(如“吃”是动词,“苹果”是名词),有些则模棱两可(“收藏、出版、研究、学习”)。现有的词类体系基本都能摆准前者位置,而对后者的处理常常引起质疑。这是由于理论模型只是“典型代表”,“而‘语言事实’不会轻易就范逻辑上的‘完美’(简约)的理论”(詹卫东,2012)。想要把问题弄得更清楚,就不能只关注那些典型结构,更要清楚词的本质。关于词的本质,维特根斯坦(2005)曾提出了用法论,指出词的意义或本质就是它的用法。Harris(1954)和Firth(1957)等发展出了更具体的语言学理论假设,核心主张都在于用词的用法了解其意义。在这样的视角下,用法即语境关系的总和(刘海涛,1993),词的意义可以从词因使用产生的丰富语境关系把握。由于用法的多样,词的理解通常不是僵硬的非黑即白,黑白中间存在诸多灰色区域,使用者根据词使用时的语境选择出它最可能的意义(刘海涛,1993)。如此,动名关系可以理解为一个允许存在“灰色”的连续统,典型情况和非典型情况都能找到自己的位置(张伯江,1994;郭安等,2020)。 实际上,以用法论为代表的这些理论假设得到了数据驱动的实证。以词向量/嵌入模型(word vector/embedding model)为代表的语义处理技术在表示语义上表现惊人。又如,以ChatGPT为代表的大语言模型表现出了强大的语言理解能力和生成能力。词向量和大语言模型处理语义的底层设计正是通过学习大规模文本中词丰富的上下文了解其语义。人工智能领域的实践表明,用法论结合数据驱动有助于认识那些复杂问题的本质,以及解决那些其他方法难以解决的问题。 以上研究及发现启迪我们结合数据驱动范式和用法论探索动名关系。用法论能给形而下的数据驱动提供理论指导,数据驱动范式又给形而上的用法论提供了配套支持,数据驱动范式和用法论能为解决动名兼类问题做另一个角度的尝试。此外,结合用法论和数据驱动范式还能够为数智时代语言学研究转型提供参考。 本研究先介绍用法论的合理性,讨论以数据驱动范式实现用法论的必要性。然后,在真实语料库的基础上,运用所述理论和方法,探索动词、名词、动名兼类词的关系,并以前人微观研究中的专家知识检验本研究提出的动名关系模型,本研究谨为更可靠的新范式和新理论建设抛砖引玉。 二、用法论、数据驱动与词向量 获取语义的路径大致可以分为基于规则与理性、基于经验与实证。在计算语言学语义表示任务的实践检验中,依赖于语义分解的理性主义方法,如逻辑推导、义素分析,愈发力不从心。逻辑语言面向于真值问题,力求精确,但自然语义通常是不精确的,逻辑语言对精确的追求可能与语义本身的模糊背道而驰。加之表达力上的劣势,更难以反映出自然语言的真实。正如叶姆斯列夫(2006)所言,包括逻辑语言、数学语言在内的其他语言可以完整转译为日常语言,但日常语言无法完整转译成其他语言。日常语言没有专门的目标,可以为任何目的服务,而其他语言都是有专门目标的,二者之间并不是对等的。理性主义是“死”的,适应语义灵活、模糊的能力有限,处理不可分割的语义时,即使分解同一对象,也难以找到统一、完整的标准,可能无法还原语言真实的面貌。 带着对这些问题的反思,经验主义和联结主义在二十世纪九十年代和二十一世纪初的两场计算语言学革命中回归了。反思的结果照应了维特根斯坦(2005)的“用法论”,用法论选择从词外在的真实使用获取它的意义,词的语境是直接的,不需要创造元语言转译,也就碰不到语义分解面对的那些难题。这一次的回归以大规模语料库和强大算力为基础,数据驱动范式有效保证了理论和算法的落地。