0.引言:语义特征分析法的局限与改进 语义特征分析法,是语义学研究中的一种基本而经典的方法。但是,这种方法现有的描写手段,只适合用来分析在概念上比较简单的词语,不足以用来分析概念结构相对复杂的词语。特别是从计算机理解自然语言的角度看,这种方法有下列两个缺点: 第一,语义特征的选择很难达到完备性的要求。当我们面对一个具体问题的时候,应该选择哪些特征,必须同时满足“充分”和“必要”这两个方面的要求——既要选择足够多的特征来构成一个“完备特征集合”,使我们的语义描写没有遗漏;同时这些特征又必须是“最小完备特征集合”,即该集合中的每一个特征都是完全独立的,它不能由同一集合中的其他特征通过运算而推导出来。后一个要求是为了避免“冗余”特征的出现。 第二,语义特征描写很难找到与它相匹配的运算推理。从逻辑上来讲,运算推理才是一个认识系统的核心,各种分类和描写都是为它服务的。所以,一套特征描写必须是能够运算的,否则对于处理自然语言的计算机系统来说是无效的。 那么,怎样来解决这两个问题呢?我们尝试在计算语言学背景上,以亲属称谓词语为实验对象,改进和拓展语义特征分析法,使之能够反映更具结构性的语义关系信息。本文介绍我们在这方面的一个具体的研究案例——基于语义特征的亲属关系的语义表示和自动推理。我们通过对汉语亲属词语的概念结构的语义分析,提取7个能够反映语义关系的语义特征,作为描写亲属关系的最小完备特征集合;并根据亲属关系这个特定认知领域的语义关系特点,构造一套运算推理规则,最终设计了一套运算系统,从而实现了亲属关系推理(转换)的自动运算。在我们设定的可能世界模型中,该系统可以解决任意一对亲属关系之间的自动转换问题;如果已知A、B两人之间与B、C两人之间的亲属关系,那么可以自动推断A、C两人之间的亲属关系。我们希望本文的研究,能为语义特征分析法的发展及其跟形式语义学的结合,特别是语义研究与工程实践的结合,摸索出一条行之有效的、具有可操作性的道路。 1.亲属关系词语的语义描写和形式表示 1.1 前人的有关研究和技术背景 亲属词语怎样来分析和释义?亲属关系怎样来定义和推导?这是传统的词汇学和词典编纂学所关心的问题,也是现代语义学、逻辑学和计算语言学所关心的一个重要问题。 早在传统语义学阶段,语言学家就借鉴人类学、文化学等社会科学的研究,试图通过提取有限的特征,来定义特定的亲属关系。在我国也有一些这方面的探索,比如,石安石(1998)借鉴人类学家Lounsbury在20世纪60年代创立的方法,采用了“辈分、近亲、姻亲、姻亲(1对0)、性别(n)、性别(1)、长幼(1对0)、长幼(2对1)”等8个语义成分,来描写汉语亲属词语,并定义汉语亲属关系。但是这些描写都不完备,因此,无法运用于亲属关系之间的运算推理。 在日常的文本阅读、史实勘定、民事诉讼、宗谱排序等社会活动中,我们经常碰到亲属关系的推算和排列问题。比如,已知:“阿兰是张三的表妹,海堂是张三的伯父;”问:“海堂与阿兰是什么关系?”诸如此类的问题,在逻辑和语义学上属于“亲属关系转换(或推理)”问题,即根据有关人物之间已知的亲属关系,来求得他们之间未知的亲属关系。于是,开发一种亲属关系的自动推理系统成为一种现实的要求。而这又有赖于对亲属词语的语义进行深入和系统的分析。由于前人的语义特征分析不能达到这一点,因而人们转向其他的技术路线。 第一种是采用“大知识库”的技术路线。通过人工方法给所有常见的亲属关系进行穷尽性的配对,将所有配对的结果汇聚在一起,构造大型的亲属关系知识库。一旦碰到相关的问题,只需要到知识库中去检索,就可直接提取出答案。有人据此建立了关于《红楼梦》人物关系的专家问答系统(王树西等,2003),我们也建立了一个通用的大知识库模型(陈振宇、袁毓林、张秀松、周强,2009a)。这种方法的缺点是,完全靠人工去采集相关知识,不仅工作量大,而且还无法保证所获取的知识达到百分之百的覆盖率和准确性。 第二种是采用“亲属基元”的技术路线。选取若干基本的亲属关系,主要是最亲近的父、母、子、女、妻、夫、兄、弟、姐、妹等,用它们来描写其他亲属关系。这样,只需给出这些基本亲属关系的转换表格,就可以通过一定的运算来实现其他亲属关系之间的转换。但是,以往的研究由于不能很好地解决逻辑运算问题,通常只能对近亲关系进行推理,稍远一点的亲属关系就推算不出。所以,目前仅是开发了一些简单关系的换算程序,远远谈不上实用。我们在解决了相关的逻辑运算问题之后,开发了一个比较完善的系统(陈振宇、袁毓林、张秀松、周强,2009b),运算规则充足,达到了完备性的要求。 本文是在陈振宇、袁毓林、张秀松、周强(2009b)的基础上,进一步深化和求精得来的。最初的设想是,查核该文所设计的系统中究竟有哪些语义特征和语义规则是不能省去的,哪些是可以省去而不会导致系统功能下降的。这就迫使我们回过头去省视语义特征分析法。因为,采用语义特征的描写显然比采用亲属基元的描写更为简便。考察的结果是,发现语义特征分析法经过改造后完全可以胜任这一工作,只是以往的研究没有抓住问题的关键罢了。 1.2 汉语亲属词语的七大语义特征 我们发现,以前对亲属关系的语义特征分析,主要有三大缺陷:第一,没有紧扣亲属关系的认知图式,所选取的特征没有反映建亲事件的序列;第二,只看到表面的语义特征,没有发现那些“隐藏”在亲属关系背后的“隐性特征”;第三,没有区分亲属词语的意义结构中的属性特征与关系特征,缺少一套有效的把有关语义特征转变为关系谓词的描写方法。