中国语言资源采录展示平台的关键技术及其应用

作者简介:
林佳庆,清华大学计算机科学与技术系软件工程师,主要研究软件工程、数据挖掘;李涓子,清华大学计算机科学与技术系教授,主要研究知识图谱、新闻与社会网络挖掘;张鹏,清华大学计算机科学与技术系高级工程师,主要研究知识图谱、数据挖掘(北京 100084)。

原文出处:
语言文字应用

内容提要:

中国语言资源保护工程自2015年启动以来,受到国际社会的高度关注,得到社会各界的热烈响应。中国语言资源保护工程采录展示平台作为中国语言资源保护工程的重要组成部分,担任工程成果展示的重大使命。平台建设涉及数据容量大,技术要求高,在创新应用的同时对安全性要求严苛,此外还具有相当的前瞻性和科学性。本文介绍了平台建设的关键技术及其应用,包括一些技术难点的解决方案和创新性应用。


期刊代号:H1
分类名称:语言文字学
复印期号:2020 年 04 期

字号:

      半个多世纪以来,我国开展过数次规模不等的语言和方言调查,取得了许多重要成果。但是语言生活异常丰富复杂且与时而变,半个多世纪以来所进行的各种语言调查,或因时间已久,或因调查理念、调查目的、调查方式(包括调查技术)、调查领域等限制(李宇明,2010),没能得到有效保存和充分利用。因此,利用现代技术手段,如光学字符识别(OCR)技术、非关系型数据库技术等来建设语言资源库,实现语言资源数字化并得以长久保存尤为重要。

      2015年,教育部、国家语委启动中国语言资源保护工程,中国语言资源保护工程采录展示平台(以下简称语保平台或平台)是工程语言资源汇聚的平台,是工程成果的重要体现。其主要任务是在汉语方言资源调查保存、少数民族语言资源调查保存和方言文化典藏资源调查保存三个项目的基础上完成所有语言资源的数字化、存储管理、整理分析和应用展示等方面的工作,通过科学整理和加工,建成大规模、可持续增长的多媒体语言资源库,进而推进深度开发应用,最终建成一个具有科学性和前瞻性的语言资源采录展示平台,并利用互联网面向社会大众采集语言资源,以展现中国的语言魅力,保护和促进语言多样性。

      二、语保平台框架设计

      语保平台是一个综合性的、科学研究和社会化应用相结合的信息化建设项目,集合了各种数据展示窗口和应用工具平台。系统平台基于Java语言、Android SDK和Linux操作系统,采用RESTful软件架构风格,构建接口化的跨平台Web应用服务系统。平台主要包括三个子系统:中国语言资源库子系统、中国语言资源统一管理系统、中国语言资源采录展示系统。其中,中国语言资源库子系统是搭建中国语言资源库基础软硬件环境;中国语言资源统一管理系统是用于管理各种语言资源数据的基础性软件系统。中国语言资源采录展示系统是提供友好界面、面向普通公众进行数据展示的服务性软件系统,图1为平台整体架构图。

      

      (一)中国语言资源库子系统

      中国语言资源库预计存储全国超过1500个调查点的全部数据,该子系统是平台的基础软硬件环境,包括服务器、存储和网络等硬件设备以及操作系统、数据库、分布式存储等应用中间件。这些基础环境在保证服务稳定性、存储安全性的基础上还要满足可扩展性,以适应未来语言资源数据量的快速增长。它是平台的中坚力量,可为整个平台提供可用基础服务,例如资源调度、存储平衡和负载均衡等。

      (二)中国语言资源统一管理系统

      中国语言资源统一管理系统是建立在资源库的基础上的资源管理应用系统,是用于管理各种语言资源数据的基础性软件系统,提供数据审校、入库、浏览、搜索和访问控制等功能和接口,并提供一系列的基础软件和辅助工具完成汉语方言调查、少数民族语言调查等结果数据的整理入库工作。在平台整体架构中将其单独作为一个独立系统列出,其目的是增强其各项功能,并增加新的功能模块,例如移动端APP支持、视频云服务等。

      (三)中国语言资源采录展示系统

      中国语言资源采录展示系统是平台的重点建设内容,系统面向普通公众,提供友好的UI交互界面,利用互联网和移动网络上的多种方式收集语言资源数据;以社会化和科学性为基本原则,为语言资源保护工作提供更大的社会影响力和辐射范围,充分调动普通民众对语言资源保护工作的参与热情,为工程的其他工作提供坚实的社会基础。系统通过社交媒体、新媒体将资源库中收集的数据进行展示,并开发配套数据收集和应用工具,不定期举办专题活动,提高全社会保护语言资源的意识和参与度。

      中国语言资源采录展示系统按照功能划分,可以分为采录和展示两个部分;而按照用户群体划分,又可以分为专业型应用和大众型应用。由于专业用户和大众用户对方言资源的利用和采集方式存在较大差异,最终的系统研制方案是将本系统分为专业平台和公众平台两个子系统,在两个子系统上分别提供采录和展示功能。

      1.专业平台

      专业平台旨在为语言学领域的专家学者提供数据分析、检索等专业服务,立足语言资源调查数据和专家型科研需求,开发语言资源数据存储、展示、检索和分析应用,例如多维度语言资源检索,多元异构数据融合展示和定制化方言地图绘制功能等。为了方便研究者查阅资料,专业平台提供了方言文献搜索引擎,实现了基于标题、作者、出版社等信息的文献索引和检索功能,真正满足领域内研究者的各方面需求。此外,专业平台还提供配套田野调查的跨平台辅助性校验工具,突破多媒体信息抽取、视频音轨剥离等关键技术,针对语言资源田野调查采录数据的专项校验,大规模节省人工校验的时间和人力成本,显著有效提高数据准确度。

      在整体框架设计上,专业平台采用统一技术框架,统一技术标准,以接口式服务形式,打通国家总库与地方语言资源库的数据通道,实现覆盖全国范围的多级语言资源体系,确保语言资源库的长久活力,同时也为地方语言资源库提供基本数据和功能支撑。

      2.公众平台

相关文章: