少数民族濒危语言有声语档建设再论

——OLAC技术规范及其适应性

作 者:

作者简介:
范俊军(1963- ),男,湖南桂阳县人,暨南大学汉语方言研究中心研究员,博士,主要研究方向为汉语方言及南方少数民族语言、现代语言技术(广东 广州 510632)。

原文出处:
西北民族大学学报:哲学社会科学版

内容提要:

建立科学的理论规范和实践规程,是少数民族濒危语言有声语档建设的基础工作。国际民间协作组织——开放语档联盟,针对语言资源数字网络化立档制定了一整套技术标准和建议性文件。这些文件对于制定我国濒危语言有声语档建设的语料类型标准、语言编码标准、数据格式标准和内容描述规范,有重要的参考借鉴价值。濒危语言有声资源数字化立档,应充分吸收这些标准和实践建议,结合语言国情,进一步补充和完善。少数民族濒危语言田野调查者应破除本位主义观点,依照统一的理论规范和实践规程,进行有声资源的采录与立档,把语言资源无私地奉献给社会。


期刊代号:H1
分类名称:语言文字学
复印期号:2011 年 05 期

字号:

      一、引言

      自本世纪初,国外的濒危语言研究就已经从语言学描写转向有声资源的记录和保存[1],而国内至今仍然主要是书面记录和描写,濒危语言的语音资源流失问题一直没有得到解决。濒危语言是不可再生的非物质文化资源,抢救和保护濒危语言的核心是保存语音原貌,使语音状态得到切实地记录。近10年来,一些高校和机构有过建立少数民族语言语音数据库的计划和尝试,如“云南少数民族语音数据库”项目,涉及2种濒危语言,研制了软件工具,做了重要的开创性工作[2];“少数民族濒危语言语音数据库”计划,曾进行了几种濒危语言录音语料的转写和标注[3];少数民族语言声学参数数据库,采集了几个大语种的样本进行实验[4]。① 除此之外,一些关注少数民族濒危语言的学者从各自的研究角度摄录了一些有声语料。但总的来看,这些研究计划和实践尝试大多属于纯学术研究。国内学界对于濒危语言有声语料的采集、记录和立档,从理论到实践尚未形成共识,也还没有开展真正意义上的濒危语言有声资源记录和保存工作。造成这种状况的原因,除了客观上人力财力支持不足外,语言学者偏重个人学术旨趣,忽视了惠及语言族群和普通民众的基本研究,也是因素之一。另有一个重要的原因就是,国内至今没有建立濒危语言有声资源记录和立档的理论规范和实践规程。无规范和标准可依,实践操作中标准化意识淡薄,这使得濒危语言语料的采集记录带有很大的个人随意性,导致语料无法进行统一数字化处理,资源不能共享,浪费人力、物力和财力。由此可见,充分了解和借鉴国际上成熟的标准和规范,吸取国外成功的实践经验,进而制定我国少数民族濒危语言有声语档建设的理论规范和实践规程,就显得十分必要。鉴于此,本文对国外“开放语档联盟”及其规范和标准进行介绍和分析,进而探讨它们对我国濒危语言有声语档建设的适应性问题。

      二、开放语档联盟及其语言资源立档规范

      在信息和传媒技术迅速发展的今天,任何资源或资源的信息,如果不能进入数字网络空间,它的社会共享面和利用价值就会始终有限。全世界有丰富的语言资源,它们分布在各地图书馆、档案馆、资料室和其他机构、社群或个人手中。要充分发挥这些语言资源的价值,关键在于使人们广泛知晓,扩大其社会共享面,而数字化、网络化便是一条重要途径。要使语言资源在数字网络空间有效地汇聚、传播和共享,就需要一个联合体,通过制定全球普遍接受的服务规范和技术标准,实现语言资源创建者、提供者、加工者、存储者、发布者、使用者之间的信息互通和操作互协。“开放语档联盟”就是这样一个国际性的民间合作研究组织。

      (一)开放语档联盟(OLAC)成立缘起

      2000年12月,由美国国家科学基金会发起,在宾夕法尼亚大学召开了“基于网络的语言记录与描写专题研讨会”。来自北美、南美、欧洲、非洲、中东、亚洲和澳洲的近百位语言技术开发员、语言学家、语料库和图书档案学家参加会议。与会专家围绕语言资源记录与描写、语言资源数字化立档与网络共享、语言资源的有效传播与利用、语言资源技术规范等一系列问题进行了充分辩论和研讨,并一致同意成立一个开放的联席组织,负责将OAI协议应用于创建一个全球性的语言资源虚拟档案库。会议确定了联席组织的名称为“OpenLanguage Archives Community”,简称OLAC。目前大陆没有公认的译名,本文译作“开放语档联盟”。② 这里的“archives”并不限于通常所理解的档案、档案室,在开放语档联盟的目标陈述中,它有更广泛的含义,泛指包含各种语言资源以及资源存储、传播、利用的信息库。“Open”的意思是任何档案馆(室)都可以加入,任何个人都可以访问该组织的语言资源档案元数据记录。它的另一层意思是,任何加入该联盟的机构或个人,都可以使用该组织拟定的技术规范和标准,相互提供、发布、传送、交换不同结构数据库的语言资源。

      “开放语档联盟”提出了两大目标:(1)针对语言资源的数字化立档,创立一个全球一致的、最佳的通用实践规程。(2)针对语言资源的存取,建立一个能互相操作的储存器和服务中心全球网络。10年来,全球有42家语言资源机构或语言资源计划项目注册加入了开放语档联盟,包括许多著名的语言资源机构,如:LDC,ELRA,SIL,DFKI,CBOLD,ANLC,HRELP等等。③ 开放语档联盟建立了一系列用于语言资源数字化立档的技术标准和实践规程,得到了众多语言资源机构、语言资源记录者和研发者的认可。它的工作大大推动了语言资源及资源信息的数字化、网络化,为语言资源的全球共享架起了一座广阔的桥梁。

      (二)开放语档联盟的标准和规范

      开放语档联盟定义的语言资源包括:(1)数据/材料(data)。任何记录和描写语言的资料。数据可能以各种形式或介质存在,如:论文、著作、词典、计算机数据文件、语言磁带、手稿、卡片,等等。内容也各种各样,从自然话语录音,到音标转写、文字注释,或语法描写,等等。(2)工具(tool)。指有助于创建、浏览、查询或使用语言材料的计算机资源,如:软件程序、字库、模板、文件类型定义标准,等等。(3)建议(adviCe)。有助于创建、使用上述语言资料和工具的各种建议,即帮助信息。为了促进语言资源数字化,使之在网络空间得到充分描述和呈现,开放语档联盟制定了一套基于网络的语言资源数字化立档和网络操作的标准或准则文件。主要有以下三类:④

相关文章: