提要 讨论了汉语自动分词研究中的若干理论问题:分词词表、歧义切分字段、生词以及全局和局部统计量,并提出了相应的处理策略。实用型汉语自动分词系统(对任意开放文本,切他精确率基本稳定在99%左右)的实现已为期不远。 一 引言 自然语言处理是人工智能的重要分支。一切自然语言处理系统均以词为重要知识载体与基本操作单元。而书面汉语中词与词之间没有显式区别标志,汉语自动分词这一研究领域于是应运而生,并且随着中文信息处理研究的深入,其重要性愈加突出。自动分词系统可在汉语分析与理解、汉外机器翻译、中文文献自动标引或全文信息检索、汉字识别、汉语语音识别与合成、中文简繁体自动转换及中文文稿自动校对等多项应用中施展本领。 关于此项研究,虽然海内外已有十年的研究历史,付诸的努力不可谓不大,取得的成绩不可谓不多(已建立的分词系统,中国大陆、台湾、香港及新加坡合计20个以上),但迄今为止并无真正成熟的实用系统面世,成为严重制约中文信息处理发展的瓶颈之一。究竟是什么原因导致了这种状况?这个领域面临的主要问题,特别是深层次的理论问题都有哪些?可能的解决办法又有哪些? 二 分词词表 汉语词的抽象定义(即“词是什么”)与具体判定(即“什么是词”)问题,语言学界并未完全解决。而词表对自动分词系统而言,是最基础的“构件”。这样,在构造分词词表时,我们就必须作出一个个具体的决定:哪些“汉字串”应被视作“词”而收录到词表中,哪些则不可以?作出这些决定的根据是什么?从语言学家那里,我们尚无法得到所希望的全部答案。 有鉴于此,中国大陆制订了国家标准《信息处理用现代汉语分词规范》,以适应电脑信息处理的迫切需要。为了避免和“词”这一在语言学中具有特定意义的概念相互纠缠,《规范》提出了一个新的概念——“分词单位”来替代“词”的位置,并给出了一套比较系统的规则(实际上是“元规则”),试图对“分词单位”进行界定(“分词单位”包括了语言学中“词”的全部,如“火车”“学习”“更加”;以及满足某些条件的“词组”的一部分,如“牛肉”“一个”“越来越”)。这种考虑是有道理的,可取的。(不可否认,《规范》颁布以来,对中文信息处理研究产生了一定程度的积极影响。)然而,正如某些学者所指出,《规范》的主要弱点是,某些界定“分词单位”的标准仍过于抽象(如《规范》中反复出现的说法“结合紧密、使用稳定”),在具体操作时难以控制,实际上还是无法把《规范》落实到位。例如,关于动补结构,《规范》认为“打倒”是分词单位,“打坏”不是。但循此结构,以“打”字开头可衍生出一个系列:“打破”“打碎”“打烂”“打散”“打沉”“打垮”“打伤”“打残”“打晕”“打死”“打败”“打赢”“打服”“打掉”“打光”“打完”“打遍”……,只能有三种处理策略:(1)统统收进词表。 无疑会导致词表急剧膨胀而一发不可收拾;(2)一律不收进词表, 可能会导致分词时,句子被切得支离破碎;(3)取折衷,部分收,部分不收。 可是根据《规范》有关条例:“动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分”,我们还是不清楚用什么手段、在哪里划一条“杠杠”才合适。显然,应用《规范》,并未能在“分词单位”这一层面上妥善解决“词”层面给我们造成的种种困扰。只有另辟蹊径,才能走出这一“迷宫”。 问题的实质在于,除定性信息(如结构)外,必须引入定量信息。我们开出的“药方”是,分词词表的构造,应该并且一定要和汉语语料库结合起来考虑。两条基本假设: 假设一:词表依赖于领域而存在。分通用领域和专用领域。词表对领域的依赖性,包括两层含义: 其一,“词”(严格地讲,应是分词单位)的具体实现,与领域有关。例如汉语中的“兰花”在新加坡华语中被称作“吴姬花”,普通话中的“好莱坞”在粤方言(香港)中为“荷里活”,所以都是对通用领域,汉语或普通话的词表中不会出现“吴姬花”“荷里活”,反过来基本上也是如此。 其二,分词单位的界定,与领域有关。判定分词单位的“杠杠”不是一成不变的,应根据领域动态调整。如在日常生活领域,“打碎”“打服”很有可能成为分词单位(“打碎一个花瓶”“可把他打服了”),而在军事领域,“打掉”“打沉”的机会要多一些(“打掉敌机一架”“敌舰被打沉了”)。“打破”“打垮”“打败”“打赢”“打死”“打伤”在这两个领域中可能都会被当做分词单位,但即便如此,也存在程度上的差异。 假设二:领域总可以用某个相关的语料库恰当地予以描述。可通过对语料库结构与规模这两个参数的合理控制来实现这一假设。 推论:与指定领域相关涉的词表,可以通过某个对应的语料库建立起来。 基本策略十分简单:任给一候选“分词单位”,对其出现次数在整个语料库范围内计频。如果频率大于某一阈值,则接受其为分词单位,否则,拒绝之。(荀子曰:“名无固宜,约之以命,约定俗成谓之宜”。我们以为,“词”也“无固宜”,“约定俗成”同样是“谓之宜”的重要依据。“约定俗成”反映在量上即为频率。) 循此思路构造的词表具备三个重要特性:(1)词表的完整性。 词表覆盖了相关领域中绝大多数分词单位。(2)词表的经济性。 体现在两个方面:第一,与领域无关的分词单位不会出现于词表中;第二,“结合”不够“紧密”、“使用”不够“稳定”的候选“分词单位”也不会出现于词表中。(对分词,并非词表愈大愈好。一是要考虑时间空间开销,二是把与应用领域毫不搭边儿的词拉进词表,会额外增加切分的歧义程度。)(3)词表的一致性。 根据频率及阈值对分词单位“一刀切”。以“量”定“性”,使《规范》完全可操作而不依人的主观意志(如“语感”)而变化。 目前,围绕这一研究的条件与时机均已成熟:(1)物质保障。 随着电子出版业的迅猛扩张,获得大规模(千万字以上)甚或极大规模(一亿字以上)语料库(机器可读文本)已很容易;(2)技术支持。 计算词典学(Computational Lexicography)及计算词汇学(Computational Lexicology)的研究已取得进展。信息论、统计学、人工智能等学科更提供了一整套可资借鉴的理论方法与技术手段;(3)需求驱动一方面,现代社会中,新事物、新概念层出不穷。词汇的增长(分化、汇流与产生)呈现“爆炸”趋势。随着“汉字圈”社会经济的发展,各行各业对中文信息处理系统的呼声日渐强烈,不同用户对领域词表的需求也随之水涨船高。