近些年来人工智能发展迅速,尤其是深度学习技术,具有学习知识、分析问题、总结规律的能力,能够对文字、图像和声音等数据进行识别、归纳与分类。鉴于此,已有学者将深度学习应用于汉字的识别任务中,尤其是对手写汉字的识别取得了不错的效果。这也提示我们将人工智能运用于古文字形体识别是可行的。相比于偏重主观感受的学科,古文字研究更为客观,其结论具有唯一性,研究过程也遵循一定的规律,在人文学科中最接近自然科学。这些都与人工智能技术的工作原理相互契合。 已有学者在这方面进行了探索,但更多的是技术性的尝试,或是理论上的思考,尚缺乏系统性的大规模研究。这可能与古文字材料自身的特点有关。首先,古文字与现代文字存在很大区别,在数据处理以及技术结合上都需要大量的专业知识,而掌握古文字专业知识的学者属于小众群体,并不具有普遍性。其次,人工智能研究需要高质量的数据集,目前来看形体数量庞大且单字丰富的公开数据集几乎没有,需要单独构建。再次,由于出土资料有限,古文字形体数量多寡不一。有的常用字可能出现数千次,字图数量也能达到数千个;而有的文字仅出现一两次,且字图数量也仅有一两个,后一种情况在古文字中占比很大。在数据不足的情况下,人工智能模型难以学到泛化的分类特征,会对识别准确率产生较大的影响。最后,古文字形体的呈现方式主要是拓本,很多拓本上存在腐蚀噪声,会对模型提取字图的特征形成干扰,而对拓本进行降噪本身也是一个复杂的问题。以上因素都在不同程度上影响了古文字智能化识别的进程,是古文字与人工智能交叉研究领域需要面对和解决的重要问题。近几年来,我们在这一领域做了一些探索,收集整理了古文字数据,并对数据进行了分类与标注,利用深度学习算法完成了识别实验,同时也就古文字知识图谱的构建做了初步尝试。 一、数据的收集与处理 (一)数据的收集与增强 古文字形体以拓本为主,而一些特殊资料又以摹本形式呈现①,所以在建立数据集时我们根据这种实际情况,既收集了大量拓本,也利用了已有的部分摹本,其中拓本占绝大多数。数据集中包括甲骨文、金文以及战国文字,其中战国文字包括印文、陶文、币文,而竹简文字则以早年发表的为主,近年新公布的清华简、安大简等材料尚未收录。在数量方面,第一次完成的数据集中字图总量为150680张。随着不断扩充,近期又更新了数据集,最新一版的字图总量是556390张,以甲骨文、金文为主。②在单字数量方面,以往的研究所覆盖的范围都不够丰富。为了确保研发数据的充分和全面、得到的实验结果更加客观,我们在收集过程中有意增加了单字数量,数据集中单字达6941个。与以往研究相比,单字数量是最多的。 我们收集的数据总量颇为丰富,却呈现出不平衡的特点。有的文字图版数量庞大,如“亡”“年”“田”等字在古文字中出现了数千次,尽管我们未将其字图全部收录,但在数据集中每个字也高达一千余个;而那些仅出现一至两次的形体,虽已全部收入,但其样本总量仍十分匮乏。这使数据集在结构上分布不平衡,使用不平衡的数据,模型在学习过程中容易导致特征偏移。为了解决上述问题,我们进行了“数据重构”,对于样本数量超过阈值上限的数据采取随机采样方法,即对数据集中某些单字存在大量重复、冗余的样本进行随机抽样,可以简化样本空间中重复的特征点,降低计算复杂度,同时也可在一定程度上降低训练过程中出现的过拟合效应。对于样本数量低于阈值上限的数据采取数据扩充的方法,利用计算机图形算法将图像进行不同程度的变换,包括仿射、剪裁、调色以及旋转等方式(参图1),进而实现数据量的增加。通过数据的扩充,智能模型可学习到更多的分类特征,也提高了泛化能力。
(二)字体的生成与显示
(三)拓本的降噪与处理 甲骨文与金文的主要呈现方式是拓本,而由于文字载体本身的残损、锈蚀等原因,拓本往往会出现一些斑点、泐痕等非文字笔画痕迹,图像中这些非必要的或多余的干扰信息在计算机领域被称作噪声。带有噪声的拓本如
,类似情况一般不会给古文字研究者造成影响,因为专家凭借知识积累以及研究经验,很容易排除这些噪声,但是对于人工智能模型而言,噪声会形成较大的障碍,所以在人工智能与古文字的交叉研究中,降低噪声是很重要的步骤。以往一些研究文字识别的学者,较多利用的是摹本而非拓本,最主要的原因就是拓本存在噪声。对拓本图像进行降噪处理是十分必要的工作。 我们先后采用腐蚀化、骨架化、膨胀化、二值化的方法,最终实现了图像降噪的目标。例如伯椃虘簋铭文中的“皇”字作
《铭图》5085),该形左侧和右上部都有噪声。在降噪过程中(参图2),首先对其进行“腐蚀化”操作⑥,尽量减少拓本中的小面积独立噪声,当然这一操作会使文字笔画受到部分影响;接着采取“骨架化”操作,提取拓本中文字的形体骨干,噪声多数会在前两个步骤中被排除;然后进行“膨胀化”操作,将形体骨干加粗,重新变成丰满的笔画;最后是“二值化”操作,将拓本处理成白色文字和黑色背景的形式。在实际研发过程中,数据集中每一个文字拓本都会经过这一降噪过程,从而弱化图像中的噪声干扰,提高模型对笔画特征的提取能力,增强模型分类的准确性。