词语的认知属性是指,在特定的语言中,语言使用者对词语代表的概念或实体的认知体验凝结到词义中的各种属性。例如汉语里“猪”这个词,除了语文词典所描写的“眼睛小,耳朵大,身体肥”之外,其认知属性还有“懒”“笨”“丑”等等。表面上看,后面三个属性不过是“猪”的常见特性而已,但这样的语言知识却很难在现有的语文词典和电子资源中找到。传统的词汇语义学,一般将这种意义作为附加在概念义或基本义之上的附加义或陪义(张志毅,2001:44;张慧晶,2003),并没有重视系统性的描写。认知语言学则不区分概念义和附加义,在隐喻研究的框架下,将“肥”和“笨”都作为“猪”的“显著特征”(Giora,97;Veale,2007)。显著特征可以用作隐喻的喻底,比如“他真是头猪”的意思是他像猪一样笨或像猪一样懒,等等。所谓“显著”是认知上显著,“特征”则表示事物的特殊之处,表现为属性和属性值的特异性(陈小荷,2005)。从理论上看,“显著特征”并没有得到良好的界定。为了凸出认知体验性和属性(值),并涵盖更多的词语属性,在本文中,我们将“显著特征”一般化为“认知属性”,以便进行阐述和分析。 词语的认知属性有助于外国人学习汉语词语的文化认知意义。通过查询词语的认知属性库,外国人可以快速地把握词语文化意义。同时,词语认知属性的研究也有助于计算机处理和理解自然语言。在互联网高度发达的今天,人们习惯于通过论坛、博客、微博发表对于事物的评价,有了“猪——笨、懒”的知识,计算机便可以理解“这个人真是头猪”表达的含义,甚至可以自动生成这样的句子。在人机对话系统中,认知属性的加入,也会让计算机了解人的隐喻性表达,同时生成有趣的话语。在机器翻译领域,借助跨语言的认知属性,有助于计算机翻译意译的、带有修辞手法的句子。 因此,本文力图通过对汉语常用词语认知属性的大规模搜集和统计分析,建立结构化的语言知识库,服务语言教学和词典编纂的需要,提高计算机对修辞表达的理解和处理能力。 二、研究现状 从上世纪80年代开始,词语的显著特征特别是名词的显著特征,不仅已成为国内外隐喻分析、自动理解和生成的重要依据(Weiner,1984;杨芸,2008;贾玉祥,2009),还应用于反讽等修辞手法的识别理解(Veale,2007)。对于汉语来说,显著特征还可以解释“太猪了”这样的“副+名”特异搭配(施春宏,2001)。因此,名词认知属性的获取成为认知隐喻计算的一个研究热点。 获取和分析词语的认知属性过程中,判定的主观性比较强。纯手工建立电子百科知识库的方式已为学界所抛弃,转而采用自动或半自动方法来建立新型语言知识库。Kintsch(2000)在语料库上利用潜在语义分析技术(LSA),寻找和名词密切相关的形容词,作为名词的显著特征。Veale(2007)利用英语的明喻格式“A is as B as C”,从搜索引擎谷歌上抓取了大量的“目标域(名词)—属性值(形容词)”对。杨芸(2008)利用词语相关度计算,从本地语料库获取了和名词相关的属性形容词,贾玉祥(2009)则用明喻格式(如“A像C一样B”)搜索百度,获取了汉语名词的显著特征形容词,用于明喻句的理解。这些研究极大地推进了隐喻中明喻研究的进展,但美中不足的是,在数据采集上忽视了频率信息和理论分析。 在语言学研究方面,显著度也逐步被认为是语言理解的重要机制。在Giora(1997)提出的“梯度显著度假说”(Graded Salience Hypothesis)中,显著度高的义项往往被首先处理。Giora(1997)认为,比喻性语言和非比喻性语言的理解都遵循梯度显著度假说:语言理解过程中首先处理显著度高的意义。意义的显著度受习俗、频率、熟悉程度以及上下文语境的影响。词语认知属性也存在显著度的问题,“猪”的各属性的显著程度如何,和语境的关系如何,直接影响着言语理解的过程。 综上所述,随着隐喻理论的发展,计算语言学界催生了对词语隐喻属性的获取研究,但是对“词语—属性”的分析尚不够细致,自动获取中也存在不少问题。在语言学界,也逐步使用显著度理论解释语言中的各种现象。我们试图将两种方法结合起来,形成基于概率分析的汉语常用词语认知属性库。 三、基于互联网的采集方法 认知属性的采集,我们采用已有的基于互联网搜索引擎的方法,以避免纯手工构建的弊端。为了与现有的语言知识库对接,便于进行语义分析并扩展至其他语言,我们采用了中英双语语义知识库知网的2007版(下简称“知网”)作为词典。知网共收录了汉语的51020个名词、27901个动词和12252个形容词。基于三种最简单有效的明喻句式“像+名词+一样”“像+动词+一样”“像+一样+形容词”,使用百度共提交查询91173次,每次查询最多返回100个结果,共得到5637500条记录①。 对于返回的记录,使用张华平的分词标注软件ICTCLAS②进行全文自动分词和词性标注。然后提取正文中含“A像B一样C”的句子,将喻体B和属性相似点C导入数据库,得到{B,C}对3197624例(tokens),1256430型(types),得到的喻体型为461865个,属性型为386009个,参见表1。