1.引言 为研究中文文本信息处理中无可避免的未登录词(既包括机器词典中没有的词,也包括虽有该词但还未确定其合适的词性)的识别问题,为研究现代汉语复合词的构造规律问题,北京大学计算语言学研究所针对中国国家标准GB2312—80所包含的全部汉字,开发了一个单音节的语素库。这项工作是《现代汉语语法信息词典》的补充。自1986年以来,北京大学计算语言所和中文系合作,历时十余载,于1995年底研制出了《现代汉语语法信息词典》,其规格说明书全文发表在1996年第2 期《中文信息学报》[1]上。更详细介绍这部词典的专著《现代汉语语法信息词典详解》[2]于1998年4月由清华大学出版社出版。自1996以来,已有中国大陆境内外的10多个单位从北京大学计算语言所取得了该成果的许可使用权。《现代汉语语法信息词典》已在汉语信息处理领域发挥了重要的作用。近两年来,相关的基础研究与应用研究都在继续进行。现代汉语语素库是这些研究的一个有机组成部分。笔者相信,同《现代汉语语法信息词典》一样,语素库也是汉语信息处理领域的一个可用的基础资源。 语素库现有6671个记录,登录的都是不成词的语素。同《现代汉语语法信息词典》关于语素和非语素字的属性描述相比较,现在语素库中每个记录所包含的语法、语义信息要丰富得多。本文将介绍这个语素库的主要内容及其应用。这个语素库同《现代汉语语法信息词典》集成的“现代汉语字词语法知识库”是作者一直期望建立的现代汉语综合语言知识库[3][4]的最基本的和最重要的组成部分。 2.作为数据库登录项的语素的确立原则 汉语语素[5] 按所含的音节数可划分为单音节语素和多音节语素。由于汉字是单音节的,所以单音节语素用一个汉字(单音节的儿化音仍算一个音节,用两个汉字表记,这是例外)表示,多音节语素用多个汉字表示。汉语语素按其自身能否构成词可划分为成词语素和不成词语素。不论语素是单音节的还是多音节的,只要是由一个语素组成的词都是单纯词。多音节的语素一定能成词,如:“荸荠”、“鹦鹉”、“蜈蚣”、“哈尔滨”、“呼和浩特”等是单纯词;单音节的“人”、“书”、“梳”、“爱”、“美”、“清”也是单纯词。既然是词,它们都属于《现代汉语语法信息词典》收录的范围,语素库不再收。这里只阐述不成词的单音节语素作为语素库的登录项(entries)是如何确立的。 一个汉字可以代表若干个语素。前面说“梳”是单纯词,实际上仅指动作的“梳”(如:“梳头”、“梳棉”中的“梳”),而指物的“梳”就是一个不成词的语素,因为人们只说“用梳子或木梳或牛角梳梳头”而不说“用梳梳头”。同样,说“书”是单纯词,也是仅指“读书”、“书籍”的“书”。“书”还有另一个意思(以下使用语言学术语“义项”代替平常说话中的“意思”),指“书写”,代表另一个语素,也不是单纯词,通常只用于构成合成词。像“木梳”中的“梳”和“书写”中的“书”这样的语素就作为语素库的一个登录项。因此,确立语素库登录项的第一件事,就是要把用一个字表记的若干语素区分开。如果某个语素是单纯词,则划归语法信息词典;如果不是单纯词,则登录到语素库。使用“语素登录项”这个术语指称作为语素库中的登录项的语素,就不会同语言学意义上的“语素”相混淆。不过,为了省略,有时也用“语素”或“登录项”代替“语素登录项”。相信在一定的上下文中,读者不难理解“语素”的确切所指。典型的单纯词和语素登录项的例子是容易举出来的。如:在“人民”、“洗涤”和“美丽”等复合词中,尽管“人”与“民”、“洗”与“涤”、“美”与“丽”意思相同或相近,但“人”、“洗”与“美”是词,分别是名词、动词和形容词,而“民”、“涤”与“丽”是语素,分别是名语素、动语素和形容语素。“笛”是语素登录项,它在现代汉语中很少单独使用,通常只说“笛子”、“吹笛子”、“笛膜”、“羌笛”,同是民族管乐器的“笙”和“箫”是词。但汉语中有一部分语素登录项和单纯词的界限是模糊的。“柿”、“李”是语素,通常不单独说“柿”、“李”,只说“柿子”、“柿树”、“柿饼”、“吃柿子”、“李子”。至于同是水果的“桃”、“杏”是语素登录项还是单纯词就不是那么清晰了,北方人说“桃儿”、“杏儿”;南方人说“桃子”、“杏子”。如果说“吃桃”、“吃杏”,北方人和南方人也能接受。如果算作词,则分到词典,要描述的语法属性信息多一些。如果对生僻的字及其义项,不易把握那些要描述的语法属性信息,不妨暂时先算作语素。由于语素库和语法词典最终是要集成到一起使用的,以后还有机会调整。 同一个汉字可分化为若干个语素。同字不同音的自然是不同的语素,例如“朝”有两个音:“chao2”、“zhao1”(附在拼音字母后的数字表示声调),“朝”至少要区分为两个语素。对于字同音也同的情况,则与《现代汉语语法信息词典》中词的收录原则相同,仍遵循语法功能和义项相结合的原则[2]区分语素。 由于语素登录项通常不独立使用,其语法功能的含义需重新考虑。笔者主要是看它在合成词中的作用,如读“du4”的“杜”在“杜树”中,是树的名称,起名词性作用; “杜”在“杜绝”、“杜门谢客”等词语中是“阻塞”义,起动词性作用。语素在复合词中的作用可用“替换法”进行检测。之所以说“杜”在“杜树”中起名词性作用,是因为“杜”可用“茶”替换,得到的“茶树”与“杜树”都是树,属于同一语义范畴,“茶”是名词,故可推断“杜”起名词性作用。又之所以说“杜”在“杜绝”、“杜门谢客”等词语中起动词性作用,是因为“杜绝”中的“杜”可用“断”替换,“杜门谢客”中的“杜”可用“闭”替换,词义基本不变,而“断”和“闭”都是动词,故可推断“杜”起动词性作用。《现代汉语词典》[6]中这两个“杜”是列为两个不同条目(在汉字右上角标数字表示,本文将该数字直接置于汉字之后)的,容易决定。因“现代汉语语法信息词典”已规定了语素登录项的代码是“g”, 语素库对语素登录项的语法功能分类是在此基础上进一步作子类的划分,此后起名词性作用的就叫“名语素”,“类别”字段填“Ng”;起动词性作用的就叫“动语素”,“类别”字段填“Vg”,如此等等。《现代汉语词典》处理为不同条目的同音字也可能属于同一语素子类,如读“wang3 ”的“罔”在《现代汉语词典》中有两个条目,一是“蒙蔽”义,如“欺罔”;另一条目是“没有”义,如“置若罔闻”。这两个语素登录项都应划为动语素。为了区分它们,也仿照《现代汉语语法信息词典》的办法,语素库设立“同形”字段。在语素库中有两个记录登录“罔”,在“同形”字段分别填“A”,“B”。同样,“同形”字段也会出现“1”,“2”等代码,那是为了区分同字同音同子类不同义项的语素登录项。同一个字的(处于同一条目中的)不同义项也可能分属不同的语素子类, 如读“gu4”的“固1”,在该条目下,有“结实、坚硬、坚定”义,如“稳固、 加固、本固枝荣”,是形容语素;有“使坚固”义,如“固本、固防”,是动语素;又可作为“姓”,再列一个名语素。并非所有不同的义项都要区分为不同的语素。如:读“zhao1”的“朝”有2个义项:①早晨;②日,天。但对这个“朝”,语素库中只收录了一个时间语素Tg。如此决定取舍主要是语法功能的因素起作用,因为这两个义项虽有所区别,但语法功能一样,意义又相近,故只作为一个语素登录项收入。