[中图分类号]H08 [文献标识码]A [ 文章编号]1003—5397(2006)01—0134—08 一 前言 在机器翻译系统及其他自然语言处理系统中,通常都有一部包括语义信息的电子词典。为了给计算机自动分析提供更全面、深入的语义信息,我们应充分吸收现有的研究成果,在语法知识库的基础上构建语义知识库。不仅要进行系统的语义分类,而且要对词义组合信息加以全面描述,进一步加强动态的语义组合知识的研究和总结,建立一个与语言工程应用紧密配合的、合理的语义知识描述框架。 北京大学与中科院计算所自1994年联合开发“汉英机器翻译模型系统”开始,就着手研制为汉英机器翻译服务的“现代汉语语义词典”,目的是在语法分析的基础上,为计算机提供更深入的语义信息。1996年至1998 年, 双方共同承担了国家863高科技项目“通用机器翻译开发平台和汉英机器翻译系统”课题(项目编号:863-306-03-06-2)。作为该课题的一个重要组成部分,“现代汉语语义词典”进入到大规模开发阶段,并取得了重要的阶段性成果,完成4.9万名词、动词、形容词的语义分类,并在配价理论的基础上,简要描述了其语义搭配限制(王惠等, 1998)。从2001年开始,“现代汉语语义词典”的再开发受到国家973重点基础研究发展规划项目的支持,对词语的语义分类以及配价属性描述重新进行填写或修订。 二 内容概要 (一)规模与结构 “现代汉语语义词典”收录了66539个通用领域内的实词,采用Foxpro 8.0实现,共有12个数据库,其中包含全部词语的总库1个,每类词语各建一库,计11个。每个库文件都详细刻画了词语及其语义属性的二维关系。总库中包括词语、拼音、同形、义项、语义类、词类、子类、兼类等8个字段。 每类词的特有属性填在各类词库中,如名词库设15个属性字段,动词库设16个属性字段,如此等等。 表1 语义词典规模 库 名 词条 属性字段 名 词 3752215 时间词 567 15 处所词 185 15 方位词 204 15 代 词 236 15 动 词 2114216 形容词 3827 15 区别词 753 15 状态词 997 15 副 词 997 11 数 词 109 11 总 库 665398 表2 名词库部分属性字段 词语 词类 同形 义项 语义类 配价类 参照体对象 WORDECAT 老虎 n动物 0 tigerN 腿n 11生物构件 1 人/动物 leg N 腿n 22非生物构件 1 用具 leg N 意见 n 11认知 2 人 实体│抽象物 view N 意见 n 22认知 2 人 人│事件 objectionN (二)词语的语义分类 国内外对汉语语义分类体系的研究已有不少成果,但由于各家分类体系的目的及应用范围不同,对同一事物可能有不同的定义与归类。如“动物”在一个语义体系中分为“兽类、鸟类、鱼类、虫类、爬行类”,而在另一个体系中分为“脊椎动物、腔肠动物、软体动物”。但这些分类体系都是基于自然科学或常识而独立于语法的。在实际语言分析中,如何将这些语义知识与语法知识有机地结合起来是一件很困难的事情。 与这些基于常识的各种语义分类相比,“现代汉语语义词典”中语义分类的突出特点就是分类的深度与广度取决于语法分析的需要。应用语义知识应着重于解决那些仅靠语法规则难以解决的问题。因而语义分类是在词的语法分类基础上进行的,并且只对名词、动词、形容词等实词进行语义分类描述,而那些带有明显标志的、通常用句法形式就可以表示的语义关系,如各类虚词,则不作为语义分类研究的对象。 经过4年来的应用检验与研究,我们发现,对于中文信息处理来说, 这种分类法是很有前途和实用价值的。为了更彻底地贯彻这个原则,同时便于与Wordnet 和“中文概念辞书(CCD)”(于江生、俞士汶,2002)兼容,与“知网(hownet)”、《同义词词林》等已有的多种语义词典实现资源共享,我们在参照现有各家语义类的基础上,针对汉英机器翻译的需要,对语义词典(1998版)的原分类体系作了较大的调整。总的来说,新的语义分类更趋合理,其特点是对名词的分类相对较细,动词、形容词的分类较粗,只要能揭示出与名词性成分、动词性组合成分的不同组合类型即可。目前我们已实际完成了6.6万词语的语义类划分与标注。具体分类体系如下: 1.名词(Noun) 1.1 具体事物(entity) 1.1.1 生物(organism) 1.1.1.1 人(person) 1.1.1.1.1 个人(individual):职业 身份 关系 姓名 1.1.1.1.2 团体(group):机构 人群