基于规则的汉语句子语义倾向计算

作 者:

作者简介:
杨江,湖南科技大学外国语学院英语教育系(长沙 411201);侯敏,中国传媒大学,E-mail:houmin@cuc.edu.cn(北京 100024)。

原文出处:
当代语言学

内容提要:

语义倾向具有程度差异、可组合性和潜在歧义性。基于规则的汉语句子语义倾向计算,对输入的句子进行分词、词性标注和依存句法分析后,利用句法分析结果,结合语义倾向词典及其附加词典,依次根据分类、识别、合并、计算和消歧规则,逐步完成句子的主客观分类、语义倾向判别和语义倾向计算任务。实验结果取得了78.25%的正确率。


期刊代号:H1
分类名称:语言文字学
复印期号:2013 年 12 期

关 键 词:

字号:

      文本语义倾向(semantic orientation)的计算近年来受到学界的广泛关注。相关的研究通常试图解决四个方面的问题:(1)区分一个语言表达式是主观的还是客观的,即主客观分类;(2)确定一个主观性语言表达式的语义倾向,即语义倾向判别;(3)测量一个主观性语言表达式的语义倾向强度,即倾向强度计算;(4)识别与语义倾向有关的倾向持有者(holder)和倾向对象(object),即关联元素识别。

      语义倾向计算的现实基础是语言具有主观性。“主观性”是说话人在言语中表现出来的立场、观点、态度、情感等“自我”的印记,它借助一定的语言手段通过一定的语言形式得以实现。语言的主观性是与客观性相对而言的,言语交际中既有叙述、说明和描写人、物、事件等的客观性表达,又有传达说话人自我判断、感受、评价、意愿等因素的主观性表达。语言具有主观性的特质,使得人们可以开展与主观性有关的各种研究,也使语义倾向计算成为可能。

      语义倾向计算的可行性依据是Osgood等(1957)提出的语义差异理论。Osgood等(1957)进行了词义量化的心理学实验,基于语义空间概念从向量的角度来表示人概念化词义的方式,发现评价是对词义产生影响的最简单可辨的因素,且易于测量;运用“一致”概念描述多个词语在意义上的相互作用,即共现的词语在倾向和强度上具有“联合”和“解离”的对立关系;指出“两极性”是语义差异的基本特征之一,词义在两极(正向极和负向极)之间完美对称这种数学上精密的构想在心理学上并不成立。语义差异理论为语义倾向计算提供了心理学上的可行性依据。

      基于上述现实基础和可行性依据,本文采用基于规则的方法对汉语句子的语义倾向计算进行研究,以期在一定程度上解决从既有文本中获知言语交际主体的主观性信息这一问题。需要说明的是,本文讨论的内容不包含对语义倾向关联元素的识别。

      2.相关工作

      当前语义倾向计算通常在词语、句子和篇章三个语言层级上展开,运用的主流方法有两种:基于语义的分析方法和基于机器学习的分类方法。基于语义的方法本质上是一种基于规则的方法,它视词语为语义倾向的最小载体,较大语言单位主观性表达的语义倾向由较小单位的语义倾向组合而成,原则上可以通过带符号的算术运算逐级得到不同大小语言单位的语义倾向。基于机器学习的分类方法是一种基于统计的方法,它把语义倾向分析看作一类特殊的文本分类,技术的关键是采用合适的机器学习算法以及选择有效的文本特征。目前学界大多采用基于机器学习的方法,其特点是技术手段较为成熟,在受限领域内性能表现良好。

      同基于机器学习的方法相比,基于规则方法的语义倾向计算有其自身的优势。第一,它符合人类思维和解析语义倾向的基本模式,能对人的这种认知方式进行模拟,尤其是模拟语境对语义倾向产生的影响。第二,诸如支持向量机(support vector machine,SVM)的机器学习模型对训练语料的依赖性较大,它们在所训练的领域表现良好,但如果同一个分类器用于其他领域,其性能将大大下降。领域的通用性差几乎是这类模型的一个通病。基于规则的方法则具有更强的领域通用性,不同领域在表达语义倾向上存在的差异一般不会对这种方法的分析结果带来太大的影响。第三,如前所述,语义倾向计算涉及多项子任务,类似SVM的分类方法在子任务的结合处理上效果往往不佳,而基于规则的方法则能将多个相关任务很好地结合在一起完成,如把语义倾向判别和倾向强度计算合并为一个复杂任务,设置其输出结果为一个带正负号的数值,其中正负号表明语义倾向类别,数值则指示倾向强度。第四,虽然机器学习方法善于处理分类任务,但对于分类的单位(即分类对象在语言层级体系中所属的类别)而言,是宜大不宜小的。在句子甚至更小的单位上进行分类,基于机器学习的方法仍然面临着很大的挑战,而自底向上、层层推进的规则方法则能很好地在小单位上胜任分类及相关分析工作。

      基于规则方法的语义倾向研究已取得一定进展。早期人们利用连词的特性来推断被连接在一起的两个词语的语义倾向(Hatzivassiloglou and McKeown 1997);后来又选用典型的褒、贬种子词来分析目标词语的语义倾向(Turney 2002)以及基于词典和上下文规则的策略来计算句子和篇章的语义倾向(Ding,et al.2008;Taboada,et al.2011)。在汉语方面,邹嘉彦等(Tsou,et al.2005)、朱嫣岚等(2006)、李钝等(2008)、王素格等(2009)、党蕾、张蕾(2010)、赵妍妍等(2010)提出了各种分析和处理汉语主观性文本语义倾向的方法。然而,这些工作也存在一定的局限。一是规则的系统化、深入化程度仍嫌不足;二是对文本中既有的各种语言特征的利用还不够充分,在句子层面很少借助句法关系来解决复杂形式的语义倾向计算问题;三是对语言主观性表达的基础性研究相对薄弱,相关的基础资源较为匮乏,人工标注的情感词典极少。本文的研究在上述提及的几个方面有所加强。

      3.语义倾向及其主要性质

相关文章: