向心理论参数化研究是将向心理论中的一些基本概念,如“语句”(utterance)、“规则1代词”(rule-1 pronoun)和“前瞻中心排序”(Cf-ranking)等,视为该理论运作的核心参数,研究这些参数的不同设定方式对该理论中的论断所产生的影响。许余龙(2008)对向心理论的参数化研究方法(Poesio et al 2004)进行了较为详细的介绍,并指出,这一研究方法的意义并不局限于检验向心理论本身,还可以系统地找出与向心理论互动的其他一些制约因素和倾向性规律,分析这些要素对指代消解的影响,从而推动和深化语篇回指研究。 在向心理论研究史上,“前瞻中心排序”是讨论最多的一个问题。所谓“前瞻中心”(forward-looking center,Cf),是指在一个语句中提及并可能成为下一语句潜在回指对象的所有语篇实体。在向心理论创始阶段,大多数学者(如:Kameyama 1985,1986; Grosz & Sidner 1986)认为,语法功能(grammatical function)是影响前瞻中心排序的最重要因素。后来,Rambow(1993)认为,线性语序(surface order)也能影响前瞻中心的显著度,语句中提到的第一个实体通常是最显著的。其他被提及的因素还包括已知度(givenness)以及题元角色(thematic role)等。大多数研究者相信,这些因素并非单独起作用;而且Walker et al.(1994,1998)认为,在不同的语言中,影响前瞻中心排序的因素可能是不同的。 本文采用计算语言学研究手段,设计不同的算法程序对英汉自然语篇中的指代词实现自动消解,分析和对比前瞻中心排序的不同设定方法对两种语言指代消解结果影响的异同,并对消解失误实例做进一步分析,探讨消解失误的原因。 2.语料及研究方法 我们的参数化研究的基本方法是:先建立一个标注语料库,然后设计一套算法程序(algorithm),在标注好的语料库里模拟语篇中局部焦点的更新进行指代消解,最后比较在不同的参数设定下取得的不同消解结果。语料方面,我们主要选择了英汉民间故事和儿童故事作为语料①。 在消解算法程序的设计方面,汉语的消解程序我们以段嫚娟等(2009)的算法为基础,做了部分改进(主要是将主语和主题标为双主语,并根据线性语序决定其显著度),然后以此为基础设计了英语消解程序。 在算法设计中,我们主要考察了以下6个影响前瞻中心排序的因素:1)语篇实体在语句中出现的先后顺序,即线性语序;2)语篇实体的语法功能,我们采用了分级式的语法功能排序方法;3)指代词与其候选先行语之间的语法功能平行性;4)语篇实体是否是回指中心(backward-looking center,Cb);5)语法角色平行性和回指中心连贯性的协同作用;6)语篇实体所在语句的主从句层次。 根据上述可能影响前瞻中心显著度排序的6个不同因素,我们共设计了6种不同的指代消解算法:1)Alg1根据线性语序来确定显著度;2)Alg2根据语法功能来确定显著度;3)Alg3在Alg2基础上进一步考虑了回指语与先行语之间的语法功能平行性因素,即回指语和先行语在前后两个语句中倾向于承担同一语法功能;4)Alg4在Alg2基础上进一步考虑了
的倾向,即语篇实体的连贯性因素;5)Alg5在Alg2基础上同时考虑了语法功能的平行性和语篇实体连贯性这两个因素;6)Alg6在Alg3基础上进一步考虑了主句中的回指语倾向于回指前一主句中提及的语篇实体,即语句的层级结构这一因素。我们将每次运作的结果读入数据库,与数据库中人工标注的回指信息进行自动比对,从而检验在不同参数设定的情况下指代消解的有效性。 3.数据分析 上述6种算法在对语句做两种不同定义的情况下(U1表示将语句设定为小句,U2表示将语句设定为自然句,详见许余龙等2008;孙珊珊等2013),对英汉民间故事和儿童故事两类语料中出现的两种指代词,即零形代词(ZP)和代词(PRON)的整体消解结果见表1(其中的数值为百分比,代表消解准确率)。
表1显示,无论在汉语还是英语中,Alg2的消解结果都明显好于Alg1。这说明,整体而言,在英汉两种语言中,前瞻中心按语法功能排序,要比按线性语序排序更准确地体现语篇实体的显著度。而对于零形代词和代词的消解,两种语言则既呈现出某些相似性,又有一些差异。消解零形代词的最佳算法,无论在哪种语言中都是Alg6,其次为Alg5和Alg3;消解代词的最佳算法,在英语中是Alg5,而在汉语中是Alg6和Alg4。得出这样的结果并不是偶然的,下面我们将结合具体例子进行分析。