国家社科研究“九五”规划重大项目“信息处理用现代汉语词汇研究”课题研讨会于1998年2月22-24日在北京国谊宾馆召开。全国人大常委会副委员长、课题组组长许嘉璐主持会议。国家语委主持工作的副主任朱新均同志到会并讲话,国家语委副主任、课题组副组长傅永和、全国哲学社会科学规划办公室陈文学出席了会议,各子课题负责人及主要成员共20多人参加了会议。 根据会议议程首先由10个子课题组的课题负责人汇报课题组1998年度执行情况。 一、97@YY001-1“信息处理用现代汉语分词词表”子课题(孙茂松汇报) 一个面向信息处理用的、具有较强通用性及覆盖能力的现代汉语分词词表,应适合信息处理的特点,满足信息处理的基本要求。信息处理的不同应用对分词词表提出的要求也不尽相同,例如OCR、语音识别的后处理。一般希望词表不要太大,因而词表的平均词长倾向于短一些,而机器翻译则刚好反过来,平均词长倾向于长一些。我们的词表基本定位在更贴近前一种类型的信息处理应用。 汉语语言学界对“词”的定义与判别并无定论,为避免瓜葛,本文认同的“词”在内涵与外延上与国标《信息处理用现代汉语分词规范》中的“分词单位”大致差不多。在总体目标的约束下,我们的词表与根据语言学理念建立起来的词表尽量靠拢。 操作上采用“定性+定量”的处理策略。 选词原则体现在以下三方面: 第一,凡利用任何一条语言学规则可以判定无误的词,我们照单验收接受。要充分尊重、运用语言学规则。 a.发生转义时(形象表示为:1+1≠2),一律为词。如“黑手”“走后门”“铁姑娘”“榆木脑袋”等。 b.含有至少一个约束语素的,一律为词。如“典籍”“豪华”“幽默”“钞票”“昂贵”“航海”“包袱”“严格”“讲究”等。 c.扩展法:不能被扩展的一般为词(但其逆命题“能被扩展的一般不是词”,我们不予采纳)。如“钢枪”“水桶”“改良”“生产”等。 d.“逆潮流而动者”一般为词。如[动+名]“炸年糕”,正常情况下应为谓词性,却另有一体词性用法,此时为词。 e.形式残缺的,一般为词。如“合得来”“合不来”“谈得来”“谈不来”,其基本式“合来”“谈来”不成立,所以是词。 第二,靠纯粹的语言学规则界定不清但具有合适词法结构的某些成分,只要频率足够高,我们仍接受它们到词表中。 主要涉及动宾、动补(包括[动+动]、[动+形]、[动+介])、定中(包括[名+名]、[形+名])、状中以及前后加缀(包括准前缀、准后缀及其组合)等结构,并且结构中的各子成分均可单用,整体未发生转义。我们称满足这些条件的结构为“词法可采纳结构”(与“词法可采纳结构”相对立的,是“词法不可采纳结构”。凡属于词法不可采纳结构的成分,其频率再高,一般也不收入词表,如动词重叠式“听听”,[数词+量词]“一个”等。)。语言学的传统做法原则上把属于词法可采纳结构的成分一律处理成短语(如“吃饭”“吃鱼”“毁坏”“撕坏”“象牙”“兔牙”“小河”“小猪”“瞎说”“重说”等)。我们的做法在这一点上“宽容”了许多,或许有点儿“离经叛道”的味道,可能会引起激烈的争议。我们的主要依据是: 1.语言学中的证据。 2.语言使用的世俗心理。 3.来自信息编码理论的支持。 4.作为隐式构词知识库的词表,我们认为一个好的词表,不仅仅表现在它显式收录了多少词,还应在一定程度上起到隐式构词知识库的作用,一旦辅以其他必要的计算资源,便可根据词表中的某些词对词表未收录的词进行联想推断。 第三,凡拆开后无助于机器分析甚至增加了机器分析的困难程度的成分,应尽量从合,常用的收入词表。 二、97@YY001-2“歧义切分与专有名词识别软件”子课题(刘开瑛汇报) 主要开展了如下的研究工作: (一)中文姓氏识别研究 1.建立了中文姓氏库,库的内容有姓氏、姓氏的频率和姓氏的使用度。姓氏频率取自“姓氏人名用字分析统计”(语文出版社)。使用读取自300万新闻语料的统计数据。我们从300万新闻语料中抽取5120个不同的姓名,其中有423个不同的姓氏用字,按姓氏在语料中出现的次数和姓名出现的次数分别进行统计,算出该姓氏的使用度。姓氏频率和姓氏使用度是进行人名识别的重要依据。 2.建立了身份词、称谓词、指界动词表 3.开发了中文姓名识别软件(1.0版) (二)中国地名识别的研究 首先建立中国地名库,现已收集10多万条中国地名,取自《中华人民共和国地名录》,统计地名中首字、中间字、尾字的用字频率,以及地名中的二字串、三字串的频率。其次,我们以300万新闻语料为基础,统计了中国地名用字的使用度。这些数据都是开发识别地名软件的依据。 中国地名识别算法采用常用地名库匹配,地名用字库,地名用词库,地名特征字库,地名上下文信息库,地名用字共现频率等信息。对于一段不分词的文本先用常见地名库剔除常见地名后,利用地名首、中、尾部用字信息寻找潜在地名,然后借助地名首词、尾词信息,地名特征字,地名上下文,地名用字共现信息缩小和确定地名的界限。 (三)组织机构名识别与分析 正在建立组织机构名固定用字库,已有初步的识别算法模型,正在细化。 中国机构组织名识别算法采用常用机构名库匹配,地名及地名简称与机构组织名固定用字库前后匹配识别算法,同时进行语法、语义搭配检查。 (四)英语译名的自动辨识 从资料中获取英语译名用字表,识别算法采用译名用字库,译名用字共现频率,及称谓库,指界动词库,地名上下信息库等资源。同样是在不分词的文本中,利用译名首、中、尾部用字信息寻找潜在译名,利用译名用字共现频率缩小译名的边界,最后利用称谓、指界动词等上下文信息确定是地名译名,还是人名译名。已着手建立识别试验软件。