一 基本名词短语及其识别方法 在自然语言信息处理领域中,基本名词短语(baseNP)的识别和结构分析是基础性的研究课题,它的正确识别和分析对句法分析、机器翻译、信息检索以及文本分类都具有重要作用。 (一)基本名词短语的界定 基本名词短语(baseNP)这一概念是Church在英语中首次提出的[1],他将英语中的baseNP定义为“简单的非嵌套的名词短语”,也就是说,一个baseNP内部不能再包含更小的名词短语。但是,这个定义并不能满足汉语语言信息处理的要求。例如:按照以上的定义,“信息检索理论”“企业承包合同”和“出口商品指数”等名词短语都不是baseNP,但是在语言信息处理领域,这些名词短语都是非常重要的语言单位,因此张瑞霞、张蕾[2]以知网中词性的划分为标准,给出汉语基本名词短语(以下简称baseNP)的形式化定义: (1)baseNP→baseNP+baseNP (2)baseNP→baseNP+名词|名动词 (3)baseNP→限定性定语+baseNP (4)baseNP→限定性定语+名词|名动词 (5)限定性定语→形容词短语|动词|(副词+动词)|名词|(名词+“的”)|(数词+量词) (6)形容词短语→(形容词+形容词短语)|(形容词+“的”+形容词短语)|(副词+形容词+形容词短语)|(副词+形容词+“的”+形容词短语) (7)形容词短语→形容词|(形容词+“的”)|(副词十形容词)|(副词+形容词+“的”) 对于这个形式化定义,我们不妨简单举几例加以说明: baseNP~baseNP NBA联赛 数据结构 下岗职工 一件衣服 先进的设备 对于未来的憧憬 租赁公司 信息爆炸 太空旅行 购买汽车 维修电器 出租房屋 企业发展规划 汉语信息处理 5位导师 飞速发展的经济 学习的压力 (二)基本名词短语的识别方法 近年来,基本名词短语的识别问题倍受研究者关注,不断出现新的研究方法与研究成果。 赵军(1998)提出了一种基于转换的汉语基本名词短语识别模型,该模型的设计思想是:通过一个基于转换规则的文本转换机制,将识别baseNP的静态知识(表示基本名词短语句法组成的基本结构模板)和动态知识(表示基本名词短语出现的上下文环境特征的转换规则)结合起来,从而充分利用baseNP的内部组成结构模板和在上文环境中的分布特征进行识别。他用1万字的语料作测试,对文本中的基本名词短语进行识别,其正确率为89.3%。 赵军、黄昌宁(1999)提出了用词语的潜在依存关系分析汉语baseNP结构的模型,即将依存语法知识融入概率模型中,使得baseNP结构分析在依存语法知识的指导下进行。他们考察的主要对象是n+n+n,考察的重点就是确定这个baseNP的定界问题,即中间的n是跟前面的n捆绑(左捆绑)还是跟后面的n捆绑(右捆绑),根据考察的500个baseNP的结果看,该模型可达到88.7%的正确率。 孙宏林(1997)根据经过分词和词性标注的语料库获取的14条规则,对什么条件下v和后面的n可以捆绑在一起进行了研究。其研究侧重于确定任意上下文中的一个特定v+n序列是否为合法的语法形式。 詹卫东(2000)利用短语结构规则的方法对名词短语结构进行研究,重点探讨了如何利用规则对名词短语进行定界的问题。 孟迎等(2004)提出了一种基于决策树的方法识别汉语基本名词短语。其核心思想为:从语料库中自动抽取基本名词短语的词性模板及其相应的上下文信息,采用算法形成相应的决策树。该方法开放测试的正确率为86.26%。 上述研究的共同点是:都着眼于如何识别自然语言文本中的基本名词短语,确切地说主要是研究基本名词短语的定界问题,而且研究的对象基本上是不包含动词的短语。对于识别出的基本名词短语的内部句法关系如何,没有作深入的探讨。 张瑞霞等(2004)提出了一种基于知识图的汉语基本名词短语分析模型。即以知识图为知识表示方法,利用知网为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”而组成“短语图”,最后得到一个关于汉语基本名词短语的结构信息和语义信息的知识图。这种方法不仅分析了汉语基本名词短语的内部句法关系,而且分析了汉语基本名词短语成分间的语义关系。这是目前所能见到的唯一一种不只识别而且还分析短语内部结构关系的模型,作者分别用不含动词的500个汉语基本名词短语和含有动词的300个基本名词短语进行测试,前者的正确率为83.6%,后者的正确率为76.1%。由此可见,包含动词的基本名词短语的识别要比不含动词的困难一些,主要原因在于,v+n序列内部的结构关系相对于n+n序列来说要复杂得多。 综上所述,我们不难发现,目前对于包含动词的基本名词短语的研究还比较薄弱。对于文本中任意的v+n序列,哪些类动词与哪些类名词组合在一起一定是基本名词短语,哪些类动词跟哪些类名词组合一定不是基本名词短语,目前还没有相关的研究成果,主要原因在于,v+n序列内部结构关系比较复杂,既可以是动宾关系(充满希望),也可以是定中关系(表达方式),还可以是述补关系(到单位),因此,要弄清这个问题,必须有比较详细的词类体系为指导。本文以“动词+名词”序列为考察对象,详细考察两类词的组合情况,目的是为计算机自动识别基本名词短语提供详细可靠的结构模板。我们考察的对象是从清华大学开发的标有完整的句法结构树的汉语句法树库语料中提取的。在这个100万字的语料库中,v+n序列共有30224例,其动词和名词都在我们句法功能信息库中的共有10081个。