1.引言 并列结构(coordinate structure)是语言信息处理中的一个难点。一般认为并列成分是相似的,并列结构的自动识别研究几乎全是围绕并列成分的相似性来进行。Okumura和Muraki(1994)、Agarwal和Boggess(1992)对英语并列结构的研究,Kurohashi和Nagao(1994)对日语并列结构的研究,周强(1996:37-40)和孙宏林(2001)对汉语并列结构的研究,都是基于“并列成分相似”这样的语言学假设,在此前提下设计规则和算法。汉语语言研究也认为并列成分是相似的:吴竞存、梁伯枢(1992:162)指出,词性相同、结构相同、语义类相同、音节数相同的项并列是最理想、最严格的并列;储泽祥等(2002:49)认为并列短语的形成是以“语义亲近性”为基础的。然而不幸的是,我们对“并列成分相似”这一概念却是模糊而不清晰的,什么样的成分和什么样的成分在什么样的条件下可以形成并列,我们并不是那么确切地知道。上述研究暴露出来的共同问题是,在利用并列成分的相似性时有些盲目。Kurohashi和Nagao(1994)指出,提高并列结构识别准确率的一个重要途径,是设计更为精确的相似度测量方法。 中心语(head)是当代句法理论中的一个核心概念,扩展的短语结构文法(GPSG)、中心语驱动的短语结构文法(HPSG)都把中心语摆在了重要的位置。中心语是其父亲节点句法语义特征的集中体现者,那么,并列成分的相似也应该集中体现在各并列成分的中心语上。本文基于中文概念词典(Chinese Concept Dictionary, CCD),对名词性并列结构并列成分中心语的语义相似性进行了定量考察,给出了定量结果并进行了定性分析。本文的研究和以往的大多数研究其实是“逆向”而行的:以往的研究是根据“并列成分相似”这一特性来标注出文本中的并列结构,本文是根据标注出的并列结构来考察“并列成分相似”这一特性。 2.考察准备 语义约束需要基于一个良构的语义分类体系,否则,“同语义类并列”这一大多数人认为的语言规则,将会是模糊不清、摇摆不定的。但汉语语义分类体系还处在探索阶段,不同学者从不同的角度出发,构造适合各自研究目标的语义分类体系。董振东的HowNet(注:请参见:http: //www.keenage.com.)、北京大学的中文概念词典CCD(于江生、俞士汶 2002)、北京大学的《语义词典》(王惠等 2003)、北京语言文化大学的905工程语义分析体系(陈小荷 1998),这些语义分类体系在语义范畴的设定上存在诸多不一致性(詹卫东 2001)。在不一致的语义范畴上谈论共同的“同语义类并列”,结果必然是不一致的。另一方面,语义分类体系都是层级结构而非扁平结构,例如“生物”下分“动物”和“植物”,“植物”下又分“花草、树木、庄稼”,那么我们在哪个层级上定义“同语义类”呢? 本文选择CCD作为研究现代汉语名词性并列结构语义相似性规律的立足点,这当然主要是因为CCD沿袭的是WordNet(Fellbaum 1999)的语义分类体系,而WordNet在计算语言学界已产生了广泛深远的影响,已成为事实上的国际标准。CCD的构建思想主要体现在三个方面: 1)传达的是概念关系,概念的承载者是词语,词义在概念中体现。 2)用同义词集合(synset)表示概念。synset用可替换性原则来确定,当两个词语在某个语境中可以相互替换而不改变语义时,它们即属于同一个synset。例如,{手段,方法}可以在下面的语境中替换:“要采用合适的手段|方法来解决这个问题”,它们因此属于同一个synset。 3)上下位是主要的语义关系。 本文以CCD的25个名词基本语义类(见附录)作为研究的出发点,不再关注其语义细类。不过CCD也并不是那么完美,并列结构的语义相似性某种意义上是一种客观存在,并列结构的研究可以反过来关照CCD的语义分类体系,引导其作出适当的调整。 我们从《人民日报》1998年1月1-10日的语料中(注:语料经过了词语切分和词性标注。作为先行研究准备,笔者手工标注了1998年1月1-10日语料中所有出现的有标记并列结构,2010个名词性并列结构就是从中抽取出来的。此语料可从北京大学计算语言学研究所网站下载供研究之用:www.icl.pkv.edv.cn.) 随机抽取了2101个有标记名词性并列结构,基于CCD对其中心语相似性进行了定量考察。本文的例句均取自于此(注:为了节省篇幅,例句在字词上有所删减。)。待考察的并列结构都是两项的,多项并列结构可看作是多个两项并列结构的叠加,和两项并列结构应该具有相同的语义约束。待考察的并列结构仅包括并列成分中心语是名词的并列结构,如“被[习惯势力和陈旧观念]所束缚”,“全部是由[国家、集体]投资”。 对名词性并列结构,各并列成分的最右端一个词默认为是中心语;当并列成分是光杆词语时,其自身也就是中心语。考察两个并列成分的中心语语义类异同情况,其计算机操作过程可概要地叙述为(注:北京大学计算语言学研究所的叶嘉明和温珍珊同学帮助实现了这部分程序,并提出了许多很好的建议,在此表示谢意。):1)提取两个并列成分的中心语,并列标记之前是前一个并列成分的中心语,并列结构结尾处是后一个并列成分的中心语;2)在CCD知识库中寻找各中心语所对应的语义类(注:当词语是多义词,有多个语义类归属时,由人工进行甄别选择正确的语义类。);3)产生中心语语义类同现列表。