分词是汉语信息处理中的一项基础工程。解决汉语分词问题,意义重大,但困难重重,所以“分词问题巳成为当前中文信息处理的瓶颈”。[1]在分词的诸多问题中,最重要的问题是:分词的标准是什么?要让计算机做自动分词,首先必须要有一个分词词表,而制定这样一个词表又需要有一个分词规范。要制定分词规范,就需要有判断词与非词的标准。同时,对计算机分词结果的评价,也需要有一个判断是非的标准。所以黄昌宁先生正确地指出,在汉语分词问题中,“首先必须就汉语的分词标准取得共识”。[1] 影响分词的因素很多,而这些因素都可以成为分词的依据或标准。吕叔湘先生说,判定一个语素组合体是词还是短语,主要涉及五个因素:“第一,这个组合能不能单用,这个组合的成分能不能单用;第二,这个组合能不能拆开,也就是这个组合的成分能不能变换位置或让别的语素隔开;第三,这个组合的成分能不能扩展;第四,这个组合的意义是不是等于它的成分的意义的总和;第五,这个组合包含多少个语素,也就是它有多长。”[4]其中,前三个因素可以归入结构标准,第四和第五个因素可以分别归入语义标准和音节标准。除了这三个标准之外,使用频度也是影响人们“词感”的一个重要因素。下面根据我们在语料库分词中遇到的实际问题,就这几个标准谈一些粗浅的认识。 1.结构标准结构标准是最重要的标准。从结构上看,词和语素划界主要依据单用的标准,词和短语划界目前主要用扩展法。 (1)单用的定义及受限单用一个语素要成为词它必须能够单用,这是一个非常朴素的道理。一个结构体AB,只要A或B是不单用的,那么AB就是一个词。这是一个充分条件,它对分词的作用是很大的。我们从20万字语料中找出所有可能的双音节组合,得到10056个条目(type),其中6267条是其中至少有一个部分是非单用的,据此我们就可以判断这些组合都是词。可见单用的标准可以解决双音节组合中近三分之二的问题。但是,许多语法著作中对单用的定义仍存在模糊不清、不易操作的问题。我们把单用的情况分为自由单用和受限单用两种:所谓自由单用是说一个语素具有某一类词的典型的句法特征;[6]所谓受限单用是指一个语素虽不具有某一类词的典型句法特征,但在特定的条件下也应该算是单用的。受限单用根据受限的条件又可以分为结构受限和语体受限两种。 1)结构受限。结构受限是指一些语素不具有某一类词的典型句法特征,但是在特定的句法结构中能产性很强,而且整个结构又可以用简单的句法-语义规则加以描述的现象。〔1〕例如,一些名词性语素在单说的时候必须儿化或加上后缀,但在“名+名”式偏正结构中却可以比较自由地充当定语或修饰语。例如,“桌”单说的时候必须是“桌子”,“桌”不具有名词的典型句法特征,它不能受数量词的修饰,不能做主语或宾语,只有加上一个后缀“子”变成“桌子”之后它才具有名词的典型句法特征。同样的例子有“瓶、袋、盒、椅、窗、叶、绳、牌、声”等。这些语素变成自由单用的方式有两种:儿化或在后面加上后缀“子”。有的是只有一种方式,有的是两种方式都能用,如: 儿化:瓶儿、袋儿、盒儿、叶儿、绳儿、牌儿、桌儿、声儿 加“子”:瓶子、袋子、盒子、叶子、绳子、牌子、桌子、椅子、窗子 但是,这些语素在“名+名”式偏正结构中能产性很强,而且在结构中并不需要儿化或带上后缀,例如: 奶瓶、花瓶、醋瓶、酒瓶、啤酒瓶、酱油瓶、可乐瓶、氧气瓶、液化气瓶、玻璃瓶、塑料瓶 纸盒、铁盒、木盒、火柴盒、骨灰盒、包装盒、铅笔盒、香烟盒、糖果盒、化妆盒、礼品盒 笑声、掌声、哭声、喊声、鞭炮声、锣鼓声、唢呐声、国歌声、欢呼声、赞扬声、喧嚣声 丁香叶、榆钱叶、梧桐叶、广告牌、卫生值日牌、草绳、麻绳、咸草绳、钢丝绳、靠背椅 以上是作中心语的例子,它们还可以作修饰语,如: 瓶盖、瓶口、瓶底、瓶签、桌腿、桌上、桌面、窗前、窗外、椅背、椅垫子可以看出,这类结构可以用简单的句法语义规则加以描述,它们和两个自由单用的名词构成的偏正结构没有什么两样,这充分反映了汉语的简约性。我们没有必要在词汇表中收入这些组合,只要把这些语素作为词收进去就可以了。其实,在我们的头脑中也是这么处理的,比如在我们的头脑中储存了“棕榈”和“叶”,我们就可以调用句法语义规则,推出“棕桐叶”的意义。用结构受限的思想就很容易解决汉语分词中的经典问题:“鸡蛋”和“鸭蛋”的问题。按照自由单用的观点,就造成了“鸡蛋”是短语、“鸭蛋”是词的结果,因为“鸭”不能自由单用,我们不能说“一群鸭”,而必须说“一群鸭子”。但我们可以说,“鸭”是受限单用的,因为虽然它不能直接受数量词的修饰,不能直接做主宾语,不能独立成句,但能够自由地在“名+名”式偏正结构中做修饰语或中心语,如“北京鸭、鸭毛、鸭头、鸭翅膀”等。 另一个结构受限的例子是,一些语素不具有动词或形容词的典型句法特征,不能作谓语,只能出现在补语位置上,而且在这个位置上能产性很强。例如: 查清 分不清 问明 探明 走遍 找遍 查遍 留住 栓住 找着 猜不着 买得起 请不动 关不死 供得起 负担得起 戒不了 承受不了 吃不来 应该承认,这些语素也具有作为词的资格,可以称为“唯补词”,正像区别词只能作定语、副词只能作状语一样,这些词只能作补语。[5] 2)语体受限。我们现在处理的基本上都是书面语,现代汉语书面语中的成分相当驳杂,里面有现代口语的成分,也有大量的文言遗留成分。从“五四”时代的“白话文运动”以来,现代汉语书面语逐步趋于和口语一致。但由于文言文传统的影响,在许多知识分子的作品中仍或多或少地存在着一些文言遗留成分,如: