中国民族语言大规模标注文本的检索技术实现及其价值

作 者:

作者简介:
江荻,男,湖南长沙人,江苏师范大学汉语和汉藏语研究中心特聘教授(江苏 徐州 221116),中国社会科学院研究员,研究方向为汉藏语言学、民族语文信息处理(北京 100081)。

原文出处:
云南师范大学学报:哲学社会科学版

内容提要:

《中国民族语言语法标注文本》丛书是国内第一套大规模真实文本资源,涵盖十余种低资源中国民族语言,又具有语法标注精深学术价值,因此引起学界广泛的兴趣和关注。鉴于该套丛书大规模标注文检索技术实现的重要价值,本文通过介绍该项目的内容、技术实现过程和可期的检索功能,特别对国际通行隔行对照化对齐文本的实现技术加以详释,使读者在项目上线之前就对丛书电子化和检索技术的实现有客观而清晰的认识。


期刊代号:H1
分类名称:语言文字学
复印期号:2024 年 05 期

字号:

      引言

      民族语言属于低资源语言,随着社会经济的发展,其越来越成为一种稀缺资源。然而语言是文化的传承载体,多样的民族语言承载了多样的文化类型。珍贵的民族语双语对译文本数据为民族语言文化传承保护和跨学科研究提供了丰富的素材。

      中华人民共和国成立以来,我国学者发表了大批民族语言研究成果,包括研究论文、个人专著、系列丛书和辞书。《民族语文》是刊发民族语言研究成果的主要阵地。自1979年创刊到2023年3月刊发文章3528篇。一些大学学报、语言学期刊、论文集、零星出版的个人专著以及系列丛书是民族语言数据的重要来源。尤其需要强调的是民族语言学界5套规模宏大的丛书,分别是《中国少数民族语言简志》丛书(57部)、《新发现语言研究》丛书(48部)、《中国濒危语言志》少数民族语言系列丛书(20部)、《中国少数民族语言参考语法研究系列丛书》(13部)和《中国少数民族语言系列词典丛书》(23种)。这些纸质出版物中的数据大体都采用了隔行对译方法,以民族语言和国家通用文字隔行对译的方式呈现。然而,由于受民族语言文本自身特点以及民族语言信息技术发展缓慢和研究群体规模小等的条件限制,当前对这些大规模数据进行整理,制作成语料库,实现自由检索还存在较大困难。尤其是20世纪中后期大量民族语言专业文本以纸质形式出版,后来有了PDF电子版,但是还未能满足智慧检索和二次开发条件。2015年开始实施的“中国语言保护工程”项目,实行按照隔行对照模式标注和存储民族语言数据,具备了进一步开发应用的基础。但到目前为止,长篇语料的隔行标注文本还未见在线发布。可见,以国际音标为转写形式的在线检索的民族语言标注文本数据资源十分缺乏。

      随着信息技术的发展,一些有传统文字文献的民族语言在线隔行标注文本资源建设有一定的进展。例如龙从军等发布系列藏文古文献隔行对照标注语料库,①该语料库包括吐蕃时期的藏文金铭石刻27件文献、《拔协》《韦协》《柱间史》《底吾史记》等著名典籍的全文隔行标注语料。

      在国际上,人类学和民族语言学者一直提倡和践行民族语言隔行标注语料的制作和使用。一些非营利的社会组织以在线形式,开展全世界民族语言资源积累,其中也有一部分隔行标注文本,如SIL International(SIL)长期致力于世界上民族语言数据的收集、整理和研究,②马克斯·普朗克人类认知和神经科学研究所为了给语言学家和研究人员提供各种语言学数据的资源库,主持了The Language Archive(TLA)③和The Endangered Languages Project④等项目,这些研究促进了民族语言隔行标注文本制作,但是收录的语种数量和文本规模还非常有限,尤其是涉及我国境内民族语言的标注文本就更少了。

      互联网技术改变了人们获取资源的方式,“加快数字化发展,建设数字中国是国家信息化战略的重要组成部分”⑤,检索数据资源成为专家学者和普通使用者的一种期盼。结构化在线语言数据又是基于大数据分析、人工智能的基础,传统纸质载体的民族语言数据逐渐会通过数字人文技术实现电子化和文本化。把具有规范化、标准化的民族语言标注文本实现在线检索,会对民族语言研究有极大的推动作用。由中国社会科学院民族学与人类学研究所主持完成的《中国民族语言语法标注文本》丛书,以呈现长篇语料为核心,通过国际音标转写原文,并按照原文行、标注行、翻译行3行对照的形式,对藏、彝、哈尼、纳西、土家、白、壮、黎、水、维吾尔、佤、独龙等民族的传统口传故事、族群起源传说、日常口语对话,儿童或寓言故事文本进行了语法标注。这种语料处理范式对语言类型学、历史语言学、区域语言学、语言接触研究等资源依赖型学科有重要的价值,也为从事民族学、人类学、历史学和自然语言处理的学者提供必备的资源。该丛书目前已出版两集20部,其作为小语种低资源真实文本语料具有重要的研究价值和应用价值,且规模已达千万字数以上,引起了国内外广泛重视。但纸质版的语言资源是一种静态资源,以著作形态呈现,无法提供数据自由索引,不能实现文本多功能动态检索和统计,因此实际使用效率较低。为解决这样的现实问题,国家社会科学基金规划办组织专家开展论证,同意设立相应选题破解这样的难题,使珍稀的民族语言文化资源面向学术和社会,为更广泛的语言知识、语言认知、语言教学、语言文化认同和语言信息处理等学科提供优质服务。⑥本文着重讨论这部分资源的应用技术实现问题。

      一、资源状态和价值

      《中国民族语言语法标注文本》丛书于2010年获中国社会科学院重大课题立项,2012年获国家社会科学基金重大招标课题支持,先后入选2015年度(第一批)和2019年度(第二批)国家出版基金资助项目,并被列为“十二五”“十三五”国家重点图书出版规划项目。参与该项目科研人员30余人,涉及国内侗台、苗瑶、藏缅、南亚、阿尔泰等多个语系语族语言和方言,目前已出版20部,具体是:藏语拉萨话、土家语龙山话、哈尼语绿春话、白语大理话、藏语甘孜话、嘉戎语卓克基话、壮语武鸣话、纳木兹语木里话、水语苗草话、维吾尔语乌鲁木齐话、哈尼语窝尼话、义都语西巴话、达让语察隅话、多续语冕宁话、藏语噶尔话、彝语凉山话、独龙语孔当话、纳西语大研镇话、黎语白沙话、佤语岩帅话,总字数约为1000万字。⑦

相关文章: