汉语词的概率语法属性描述

作者简介:
俞士汶,男,教授;从事计算语言学研究,属北京大学计算语言学研究所。通信地址:中国100871北京市,北京大学计算机系。电话:86-10-6275189,传真:86-10-62756591,Email:yusw @ pku.edu.cn,duenhm @ pku.edu.cn,主页:www.icl.pku.edu或icl.pku.edu.cn 北京大学计算语言学研究所 北京 100871 段慧明,女,高级工程师;从事计算语言学研究,属北京大学计算语言学研究所。通信地址:中国100871北京市,北京大学计算机系。电话:86-10-6275189,传真:86-10-62756591,Email:yusw @ pku.edu.cn,duenhm @ pku.edu.cn,主页:www.icl.pku.edu或icl.pku.edu.cn 北京大学计算语言学研究所 北京 100871 朱学锋,女,副教授;从事计算语言学研究,属北京大学计算语言学研究所。通信地址:中国100871北京市,北京大学计算机系。电话:86-10-6275189,传真:86-10-62756591,Email:yusw @ pku.edu.cn,duenhm @ pku.edu.cn,主页:www.icl.pku.edu或icl.pku.edu.cn 北京大学计算语言学研究所 北京 100871

原文出处:
《语言文字应用》

内容提要:

“现代汉语词的语法属性研究”是中国国家哲学社会科学基金在“九五”期间支持的语言学科重大课题“信息处理用现代汉语词汇研究”中的一个子课题,本文首先介绍这个子课题的主要研究内容,即以《现代汉语语法信息词典》的己有成果为基础,以大规模真实语料的统计数据为依据,用概率值重新描述词的语法属性。然后介绍这个子课题已经取得的成果,并探讨进一步发展的方向。


期刊代号:H1
分类名称:语言文字学
复印期号:2001 年 11 期

字号:

      [中图分类号]H08

      [文献标识码]A

      [文章编号]1003-5397(2001)03-0021-06

      一 词的概率语法属性的提出

      笔者认识到汉语自动分析的一些特殊困难[1,2,7],并认为克服这些困难的必要手段之一就是建立综合型语言知识库[3,4]。词的语法属性知识是这个知识库的重要组成部分。北大计算语言学研究所与中文系长期合作,已研制了一部用于信息处理的《现代汉语语法信息词典》[5,9]。这部词典已收词语7.3万余条。在建立了基于语法功能分布的分类体系后,完成了7.3万词语的归类,并进一步对各个词类中的每一个词语详细描述它们的多项语法属性信息。这部词典已在国内外几十个单位的语言信息处理研究中发挥作用。一部详细介绍这部词典的专著于1998年出版[5],清华大学出版社拟在2001年内出版第二版。

      这部词典中的语法属性信息的值多数为“可否型”或“是非型”,在此基础上建立语法规则,仍然难免“说一不二”或“非此即彼”,缺乏柔性。“现代汉语词的语法属性研究”子课题就是以《现代汉语语法信息词典》的已有成果为基础,以大规模真实语料的统计数据为依据,用概率值重新描述词的语法属性,这是一项全新的研究工作。

      二 词的语法属性值的类型

      在语法信息词典中,描述词语语法属性的字符型属性值划分为“二选一型”“多选一型”“复合型”和“释义型”4种子类型。除“释义型”外,其他3种属性值都可以按不同方式用概率值替换。

      1.二选一型

      这种属性值只有两种可能的选择,最便于替换。比如:动词有一个属性描述其能否受程度副词修饰。像“想、重视”这些动词能受“很”修饰,可设值为"Yes";像“等于、调查”等动词不能受“很”修饰,设值为"No"。这种类型又可叫做“可否型”。在语法信息词典中,这种类型最多,相当于数据库中的逻辑型,逻辑型字段取值要么是“真”,要么是“假”。“可否型”属性值的实际含义有所不同,"No"是刚性的,"Yes"是弹性的。如果某动词的“很”这个属性的值为"No",那么该动词一定不能受“很”修饰;如果其值为"Yes",只是说明该动词可以受“很”修饰。但并不指明该动词在实际使用时受“很”修饰的这种可能性有多大。

      如果将某种属性看作随机变量,用随机变量的概率值刻画该属性,则既可以客观反映语言的模糊性,又可以避免个人语感等因素的干扰。仍以动词的“很”属性为例。设某动词在语料库中共出现m次,其中实际受“很”修饰的有n次,则定义该动词受“很”修饰的概率值为

      p=m/n,

      以"p"作为该动词的“很”属性的值,就完成了对动词是否受“很”修饰这个属性的描述方式的改造。显然,这样的描述更为科学,更为客观。

      适应某些应用的实际需要,反过来又可以在概率属性值的基础上重新建立“可否型”的描述方式。设一阈值δ。若p≥δ,则定为"Yes";若p<δ,则定为"No"。

      在“可否型”的属性值中还可以更精细地区分出“是非型”。“是非型”是真正的逻辑型,如在动词库中有这样的一些字段:“系词”“助动词”“趋向动词”“形式动词”等。这些字段指明每个动词是不是系词、助动词、趋向动词、形式动词。从逻辑角度考虑,“是非型”字段无需用概率值改造。

      2.多选一型

      动词库中的“体谓准”属性字段是多选一型的,其值可定义为以下8种,即“内”“体”“谓”“准”“体谓”“体准”“谓准”“体谓准”,分别代表该动词是不及物动词、只可带体词性宾语的动词、只可带谓词性宾语的动词、只可带准谓词性宾语的动词、可带体词性宾语和谓词性宾语的动词、可带体词性宾语和准谓词性宾语的动词、可带谓词性宾语和准谓词性宾语的动词、可带体词性宾语和谓词性宾语以及准谓词性宾语的动词。为了用概率值描述这些属性,将这一个字段拆分为3个字段:“体宾”“谓宾”“准谓宾”,并规定这3个属性值的类型都是数值型的。设某动词在语料库中以v的形式出现m次,实际带体词性宾语的有x次,实际带谓词性宾语的有y次,实际带准谓词性宾语的有z次,则定义这3个属性的概率值分别为:p1=x/m,p2=y/m,p3=z/m.若p1+p2+p3=0,则该动词是不及物动词的可能性很大。

      3.复合型

      本来在关系数据库理论中规定所有字段的值必须是“原子”,即字段的值是不可再分割的,不过,实用的关系数据库管理系统都可实现这样的附加操作,即从字符型字段的值中取出其中的子字符串。这里将可分解成若干子字符串的类型叫做复合型。在名词库中有“个体量词、度量词、容器量词”等字段。如对于“白菜”,其个体量词可填“棵,个”,其度量词可填“斤,克,千克,公斤”,其容器量词可填“筐”,其种类量词可填“种”,其成形量词可填“堆”,其不定量词可填“些,点”。同样,量词库的“后名”字段的值也是复合型的。如对于“杯”,“后名”字段可填“水,茶,酒,咖啡”;对于“本”,“后名”可填“书,杂志,小说”。

      对于这类复合型字段,改用概率值描述的方法有所不同。每个具体的量词不便作为名词库的字段名称,因为汉语中常用量词有数百个。而将所有的名词作为量词库的字段更不现实。因此,将不改变这类复合型字段的值的类型。

相关文章: