一、多语种数据库及通用标注规范 少数民族多语种数据库的语种一般包括少数民族语、国家通用语言、国际通用语言或区域通用语言。少数民族语(或称本地语)是被描写语言或目标语言,国家通用语言(或称国语)或国际通用语言是数据库的分析语言。以多语种数据库为基础,可以生成少数民族语单语词典、少数民族语—国家通用语言双语词典、少数民族语—国际通用语言双语词典和少数民族语—国家通用语言—国际通用语言三语词典。少数民族多语种数据库的研制,表明一个国家的语言研究,在横向研究层次上实现了从个别民族语言到国家通用语言、国际通用语言的信息贯通,在纵向研究层次上实现了通过大规模数据库建设,进入深层次、多角度研究的跨越式发展。多语种数据库的开发,是在国内国际信息通道上解决语言文字差异造成的信息阻隔问题的必要步骤。 建设数据库的最基本技术是对自然语言进行切分和标注。多语种数据库的标注,不仅要考虑对单语言单位的分类、标注,还要考虑多种语言信息之间的标注一致性和信息互换性。没有统一、前后一致的标注规范,不同语言信息之间的分类、对应、检索、反向检索、筛选、打印等操作都无法正常、有效地进行。 多语种数据库的用途是多方面的,就使用目的而言,有研究性、开发性、实用性的区别,就使用者而言,有本民族用户和跨语言、跨国界用户的区别。满足多种用户需要,则保证标注符号的通用性(跨语言性)、简易性、操作性和规范性。 多语种数据库的发展将来必然采取开放建库策略。只要规范文字编码、标注符号和数据库结构,就能够很多小型数据库资源被整合到大型数据库中。目前,世界各地的语言研究者在田野调查中制作了大量具体单语言数据库(大部分是深度标注的),如果能够有效整合这些资源,就能大大加快大型多语种语料库建设,并有效降低建库成本。 自然语言的处理需要使用先进的技术和工具。解决文字编码问题后,如果对标注符号进行规范和统一,就能直接使用或用最小代价改造使用最先进的语言处理硬软件技术,从而大大加快自然语言处理的速度、效度,并降低工具重复开发所付出的成本。 多语种数据库的质量档次主要体现在两个方面:其一,数据库规模。一般按词数计,从百万到上亿,分不同等级。其二,数据标注深度。词级的语法—语义标注为浅层标注,功能—语义标注为深层标注。尽管数据库可以有不同的侧重点,尽管数据库标注是一个逐步深化的过程,但是,有一套思想远见、前后一致的标注体系,就能够满足数据库的不同用途、数据库发展不同阶段的不同需要和不同数据库之间、同一数据库不同版本之间的兼容。 数据标注的通用性并不威胁信息安全。因为任何自然语言数据库,都是对自然语言的处理和使用过程,而任何自然语言都属于明码,具有开放性,所以,一般自然语言处理,不会对国家信息安全构成威胁。另一方面,语言数据库的研制,其目的首先在于信息交流,而不是简单地储存信息,更不是封锁信息,数据库必须有开放性格。但是,任何一种规模化的语言数据库,都是一种高端技术技能和密集劳动的产物,尤其是深度标注数据库是多重综合研究的结果,必然涉及知识产权、著作权问题,在某些方面还涉及信息安全问题。对此可以采取适当步骤。首先,大型、重要数据库必须树立专属知识产权和商标权。其次,部分、有条件地开放数据库。国际上的大型数据库,一般向社会开放几千万字的语料。数据库使用条件可以分有偿转让和信息交换。有偿转让指的是根据服务项目收取一定的费用;信息交换指的是以信息或某种贡献换取数据库使用权。如:个人将自己的小型数据库资源整合到大型数据库,以换取大型数据库的使用权限。此外,对数据库设定密级,密级根据其保护内容设不同档次。概而言之,数据库标注技术一定要保证数据库内部信息(如各语种)交换的通畅性和数据库和用户、数据库和数据库、数据库和其他信息载体(如出版物)之间的信息通畅性。而数据库的使用则是有条件的,可以设不同级别的限制,这两个层面不能混淆,不能相互替代。 “多语种词典标注集逐渐向国际通用格式靠拢”的设想,是笔者在2008年11月24日在北京召开的“中国中文信息学会成立二十七周年学术会议(CIPS2008)”上提出来的。在此之前的2006年,中央民族大学启动了985工程项目,其子课题“现代蒙古语参考语法”在语料处理中开始使用Toolbox数据库软件,研究人员深切感到多语种语料标注规范的重要性,于是向会议提交题为“关于多语种词典的标注集问题”的论文提纲。之后,由于Toolbox软件在使用过程中出现许多问题,一时难以解决,因而改用FieldWorks数据库软件。与前者相比,后者的性能有明显的改进,但是其背后的标注规范——MDF却延续下来。从2013年开始,笔者团队在国内蒙古语、达斡尔语、土族语等蒙古语族语言数据库研制中试用该软件,取得初步经验和成果。2014年1月1日,中央民族大学启动由赵小兵教授主持的国家自然科学基金重点项目“跨语言社会舆情分析基础理论与关键技术研究”。该项目用同一平台处理蒙古语、维吾尔语、藏语、汉语多语种语料,必然涉及多语种语料库标注规范问题,本研究是针对蒙古语族语言多语种数据库标注规范提出的初案。其中,各种标注字段及其简介多引用美国SIL国际夏季语言学院David F.Coward,Charles E.Grimes编写的《词典编纂——词典学及多语种词典格式设置程序1.0版指南》。[1]