一 引言 人类很早就开始了智能的研究。最初的动机是想创造一种能够思考问题、与人交流的机器[1]。随着电子计算机的出现,人工智能这门学科正式诞生。它的目标是在计算机上重构人脑,使之代替人类完成相应的工作。 人工智能的一个重要应用领域是自然语言理解。语言的使用是人类智能的一个重要标志。为了让计算机能够理解自然语言,有必要同时开展两方面的工作:一是开发可以理解并且能够产生自然语言的程序。二是对自然语言进行形式化处理:借助数理逻辑工具,用更加精确的形式语言(如谓词演算和Lambda演算)来表征自然语言。由于理解的核心是语义,自然语言理解的本质就是语义表征的计算[2]。 从逻辑的角度研究语义,在语言学的领域中形成了一个理论流派——形式语义学,包括真值条件语义学、模型理论语义学、可能世界语义学、情景语义学等等。它的核心计算机制是叠置原理[3]。经过修正,可以更加有效地处理自然语言中动态、复杂的语义现象,如形容词修饰语。从而有力地推动自然语言理解、人工智能的发展。 二 语义表征及其计算 为了精确地研究语义,有必要采用某种形式语言作为表征体系。在形式语义学中,人们一般采用谓词演算体系。首先,它具有精确性和单义性。谓词与所表征的意义之间是一一对应的关系。而在自然语言中是一对多的关系,绝大部分词汇具有多个义项。此外,谓词逻辑比命题逻辑更能刻画自然语言的内部结构。命题逻辑的基本单位是命题,对其内部成分和结构不作进一步的分析。而在谓词逻辑中,原子命题被进一步分解为个体词和谓词。这样一来,就能够深入研究词句的意义而不是停留在句际逻辑关系上。 在经典的谓词理论中,形容词和所修饰的普通名词都处理为谓词。以红和苹果为例,它们分别表示某种颜色和水果的特征、性质:只有具有这些性质的颜色和水果才能够称之为红和苹果。 谓词表征的意义既有性质的一面,也有指称的一面。传统的形式语义学从语言符号与客观世界的关系这个角度把握意义,因此认为指称的对象是客观世界中的实体。 随着可能世界语义学的提出,实体不再局限于客观世界。Sebastian[4] 明确区分了“世界中的实体”和“思维中的实体”(即概念)。这样一来,作为意义表征体系之一的谓词就可以指称概念了。在当代语义学文献中,用谓词指称概念、将概念表征为谓词就变得比较普遍了(参看Kamp[5],Blutner et al.[6]等)。 Jaap van der Does和Michiel van Lambalgen[7]提出了一个模型,以阐述谓词的两个不同指称之间的关系(见下图):
图1 表达式与意义 表达式就是谓词,可以指称真实世界和投射世界(即主观世界、心理世界)中的实体,这两个世界之间存在如下映射关系:表达式在投射世界中得到直接解释,在客观世界中得到间接的解释。 在建立了两种不同意义类型之间的投射关系之后,有必要指出的是谓词和AVS体系是两种并行不悖的表征体系。从逻辑的角度来看,认知语义学中常采用的AVS体系(即attribute-value system)所表达的概念及其属性、值本身都是谓词。换言之,一个谓词可以分解为一组子谓词。另一方面,逻辑学中有一个分支是特征逻辑[8],所研究的就是如何将谓词分解为属性。两种表征体系存在转换的关系。 这样一来,形式语义学中一些相对而言比较完善的理论模型就可以运用于概念、尤其是概念组合的研究。这有利于在一定程度上弥补目前一些认知理论在可计算性、可实现性等方面的不足。在形式语义学中和相关的自然语言理解、人工智能科学中,一个重要的数理逻辑基石是集合论:研究的是集合以及集合之间的逻辑关系。从这个角度出发,谓词所指称的其实是一个实体对象集。例如,谓词苹果所指称的并不只是一个而可以是多个苹果。将这个集合的共同性质分解为一组属性后,这些属性也构成了一个属性集合。两个谓词以及所指称的对象集、属性集之间的关系,就可以用“与”“或”“差”“补”等基本的逻辑手段来揭示。这奠定了语义计算的基础。 如上所述,谓词红和苹果分别表征红和苹果两个意义。那么,复合语义如红苹果怎么计算? 叠置原理,即Frege组合原理,对这个问题进行了回答:复合成分的语义取决于成分的语义和构成的方式。用谓词公式表征如下: 结构上:C=A+B 语义上:
│A││B│为构成成分的语义。通过“复合”,就可以获得复合语义│C│。 这条原则深刻地把握了语义计算过程中所涉及的两大关系。一是复合成分与组成成分是一种整体—部分关系:较大成分的意义由较小成分的意义组成。二是语义规则与句法规则同构对应,可以按照句法规则来计算复合成分的意义。 据此,可以将语义的计算分解为词汇语义和句法两部分。词汇意义是有限的,句法规则具有递归性。两者结合就可以计算出词组、句子的意义。这是一条具有能行性的语义计算方法,在自然语言理解中得到了广泛的采用。