基于人工智能技术的古文字研究

作者简介:
李春桃,吉林大学考古学院、古籍整理研究所教授,历史学博士;张骞,吉林大学考古学院博士研究生;徐昊,吉林大学计算机科学与技术学院教授,工学博士;高嘉英,吉林大学人工智能学院博士研究生(长春 130012)。

原文出处:
吉林大学社会科学学报

内容提要:

人工智能与古文字学交叉研究十分重要,开展这项研究既需要人工收集和标注大量数据,同时也需结合恰当的技术。在数据处理方面,数据集建设过程中尽量丰富了单字数量以及字图总量。数据中的字图包括拓本和摹本,其中拓本多带有斑点噪声,降低噪声有助于提高文字识别的准确率。数据中古文字隶定体的显示也是要重点解决的问题。在文字自动识别方面,利用了深度学习算法开展智能识别,从实验结果看,准确率达到八成以上,这是在大规模识别任务下达到的效果,证明了利用人工智能技术识别古文字形体是可行的。分析错误数据可以发现,数据量与形近字是影响识别准确率的关键因素。除了识别以外,知识图谱技术也很重要,建设古文字知识图谱一方面可以实现对古文字知识体系的多角度展示;另一方面也可计算字形中偏旁及构形的相似度,智能寻找出字形之间的联系。


期刊代号:H1
分类名称:语言文字学
复印期号:2023 年 06 期

字号:

      近些年来人工智能发展迅速,尤其是深度学习技术,具有学习知识、分析问题、总结规律的能力,能够对文字、图像和声音等数据进行识别、归纳与分类。鉴于此,已有学者将深度学习应用于汉字的识别任务中,尤其是对手写汉字的识别取得了不错的效果。这也提示我们将人工智能运用于古文字形体识别是可行的。相比于偏重主观感受的学科,古文字研究更为客观,其结论具有唯一性,研究过程也遵循一定的规律,在人文学科中最接近自然科学。这些都与人工智能技术的工作原理相互契合。

      已有学者在这方面进行了探索,但更多的是技术性的尝试,或是理论上的思考,尚缺乏系统性的大规模研究。这可能与古文字材料自身的特点有关。首先,古文字与现代文字存在很大区别,在数据处理以及技术结合上都需要大量的专业知识,而掌握古文字专业知识的学者属于小众群体,并不具有普遍性。其次,人工智能研究需要高质量的数据集,目前来看形体数量庞大且单字丰富的公开数据集几乎没有,需要单独构建。再次,由于出土资料有限,古文字形体数量多寡不一。有的常用字可能出现数千次,字图数量也能达到数千个;而有的文字仅出现一两次,且字图数量也仅有一两个,后一种情况在古文字中占比很大。在数据不足的情况下,人工智能模型难以学到泛化的分类特征,会对识别准确率产生较大的影响。最后,古文字形体的呈现方式主要是拓本,很多拓本上存在腐蚀噪声,会对模型提取字图的特征形成干扰,而对拓本进行降噪本身也是一个复杂的问题。以上因素都在不同程度上影响了古文字智能化识别的进程,是古文字与人工智能交叉研究领域需要面对和解决的重要问题。近几年来,我们在这一领域做了一些探索,收集整理了古文字数据,并对数据进行了分类与标注,利用深度学习算法完成了识别实验,同时也就古文字知识图谱的构建做了初步尝试。

      一、数据的收集与处理

      (一)数据的收集与增强

      古文字形体以拓本为主,而一些特殊资料又以摹本形式呈现①,所以在建立数据集时我们根据这种实际情况,既收集了大量拓本,也利用了已有的部分摹本,其中拓本占绝大多数。数据集中包括甲骨文、金文以及战国文字,其中战国文字包括印文、陶文、币文,而竹简文字则以早年发表的为主,近年新公布的清华简、安大简等材料尚未收录。在数量方面,第一次完成的数据集中字图总量为150680张。随着不断扩充,近期又更新了数据集,最新一版的字图总量是556390张,以甲骨文、金文为主。②在单字数量方面,以往的研究所覆盖的范围都不够丰富。为了确保研发数据的充分和全面、得到的实验结果更加客观,我们在收集过程中有意增加了单字数量,数据集中单字达6941个。与以往研究相比,单字数量是最多的。

      我们收集的数据总量颇为丰富,却呈现出不平衡的特点。有的文字图版数量庞大,如“亡”“年”“田”等字在古文字中出现了数千次,尽管我们未将其字图全部收录,但在数据集中每个字也高达一千余个;而那些仅出现一至两次的形体,虽已全部收入,但其样本总量仍十分匮乏。这使数据集在结构上分布不平衡,使用不平衡的数据,模型在学习过程中容易导致特征偏移。为了解决上述问题,我们进行了“数据重构”,对于样本数量超过阈值上限的数据采取随机采样方法,即对数据集中某些单字存在大量重复、冗余的样本进行随机抽样,可以简化样本空间中重复的特征点,降低计算复杂度,同时也可在一定程度上降低训练过程中出现的过拟合效应。对于样本数量低于阈值上限的数据采取数据扩充的方法,利用计算机图形算法将图像进行不同程度的变换,包括仿射、剪裁、调色以及旋转等方式(参图1),进而实现数据量的增加。通过数据的扩充,智能模型可学习到更多的分类特征,也提高了泛化能力。

      

      (二)字体的生成与显示

      

      (三)拓本的降噪与处理

      甲骨文与金文的主要呈现方式是拓本,而由于文字载体本身的残损、锈蚀等原因,拓本往往会出现一些斑点、泐痕等非文字笔画痕迹,图像中这些非必要的或多余的干扰信息在计算机领域被称作噪声。带有噪声的拓本如,类似情况一般不会给古文字研究者造成影响,因为专家凭借知识积累以及研究经验,很容易排除这些噪声,但是对于人工智能模型而言,噪声会形成较大的障碍,所以在人工智能与古文字的交叉研究中,降低噪声是很重要的步骤。以往一些研究文字识别的学者,较多利用的是摹本而非拓本,最主要的原因就是拓本存在噪声。对拓本图像进行降噪处理是十分必要的工作。

      我们先后采用腐蚀化、骨架化、膨胀化、二值化的方法,最终实现了图像降噪的目标。例如伯椃虘簋铭文中的“皇”字作《铭图》5085),该形左侧和右上部都有噪声。在降噪过程中(参图2),首先对其进行“腐蚀化”操作⑥,尽量减少拓本中的小面积独立噪声,当然这一操作会使文字笔画受到部分影响;接着采取“骨架化”操作,提取拓本中文字的形体骨干,噪声多数会在前两个步骤中被排除;然后进行“膨胀化”操作,将形体骨干加粗,重新变成丰满的笔画;最后是“二值化”操作,将拓本处理成白色文字和黑色背景的形式。在实际研发过程中,数据集中每一个文字拓本都会经过这一降噪过程,从而弱化图像中的噪声干扰,提高模型对笔画特征的提取能力,增强模型分类的准确性。

相关文章: