古文字自动识别过程及其程序实现

作 者:

作者简介:
张霄军,南京师范大学文学院博士生、陕西师范大学外国语学院讲师; 陈小荷,南京师范大学文学院特聘教授、博士生导师。

原文出处:
中国文字研究

内容提要:

计算机硬件的发展使得大规模古文字字库建设成为可能,《古文字诂林》等大型古文字释类工具书的编纂出版为古文字库建设提供了丰富的资源,人工智能技术的不断发展为古文字自动识别算法的演进提供了条件。众多古文字学家和考古学家对古文字结构、异体、义释、语法等方面的大量研究工作也使得古文字自动识别有了理论上的依据。因此,在硬件、资源、技术和理论四方面都取得长足进步的同时,古文字自动识别技术的研究和开发也就提上了议事日程。古文字自动识别的一般过程为:(1)进入OCR系统,获取识别图像;(2)对图像预处理,获取文字轮廓;(3)对文字进行切割,并提取其结构特征;(4)单字识别;(5)自动识别后处理;(6)必要的人工文字校对,识别结束。本文运用数字图像识别与处理原理,在VisualC下编译了部分程序代码,可以实现以上步骤,并具有一定扩展性。


期刊代号:H1
分类名称:语言文字学
复印期号:2006 年 12 期

关 键 词:

字号:

      一、大规模古文字自动识别实现的可能性

      随着中文信息处理技术的发展,古文字自动识别技术也势必成为研究的重点,而大规模古文字自动识别的实现则依赖于计算机硬件的升级、人工智能技术的发展、基础资源的建设和理论研究的深入。如今,这四方面条件都取得了长足的进步,大规模古文字自动识别的实现也就可以预期了。大规模古文字自动识别技术对于我国古文宇考证、出土文物鉴定、古文字辞书编纂等都有着重要意义。

      1.计算机硬件的升级

      计算机硬件是指构成计算机系统的所有物质元器件、部件、设备,以及相关的工作原理与设计、制造、检测等技术的总称。元器件包括集成电路、印刷电路以及其他磁性元件、电子元件等。第一代计算机以电子管作为主要元器件,第二代计算机以晶体管作为主要元器件,这两代计算机体积大、功耗大、故障率高、运算速度低、不能用于文字处理。从第三代计算机开始以集成电路作为主要元器件,集成电路的发展大大促进了计算机体系结构和硬件的完善。目前普遍使用的是第四代计算机,其主要元器件采用大规模集成电路,具有运算速度快、容量大、体积小、功耗少、可靠性高、应用范围广的特点,可以广泛地应用于文字和文本处理;计算机系统的部件和设备包括中央处理器(central processing unit,CPU)、存储器、输入输出设备和电源等。中央处理器是计算机内部对数据进行处理并对过程进行控制的部件,由运算器、控制器等组成。早期计算机为了节省成本,一般采用串行运算器,运算速度慢,后来逐渐采用并行运算器,大大加快了计算机运算速度,现在的计算机普遍采用浮点运算器,扩大了数据处理的应用范围。现代计算机普遍采用微程序控制器(microprogrammed control unit,MCU),可以实现不同计算机间指令兼容问题。现代计算机的中央处理器有向微处理器发展的趋势,即随着大规模集成电路技术的迅速发展,芯片集成度越来越高,中央处理器可以集成在一个半导体芯片上,甚至一个芯片上能集成多个处理器,功能也不断增强。存储器是用来储存程序所需的数据和指令信息。过去曾经使用磁心存储器和磁鼓存储器,存储容量有限,现代计算机根据不同的功能、结构与工作原理,存储器的介质也不相同,主要有半导体存储器、磁盘存储器、磁带存储器和光盘存储器等。输入输出设备也由简单的批次输入(纸带输入机、软盘输入机)发展成为交互式输入(键盘、鼠标、触摸屏)和语音、文字、图像输入设备等,由单一的显示输出设备发展为印刷输出设备、语音输出设备和绘图仪等。此外,计算机制造、检测和维护等技术也日新月异,完全能适应大规模文本与文字处理的需求。

      2.人工智能技术的发展

      人工智能是研究解释和模拟人类智能、智能行为及其规律的一门学科,其主要任务是建立智能信息处理理论,进而设计可以展现某些近似于人类智能行为的计算系统。人工智能的研究已经有近50年的历史,发展是曲折的,目前在专家系统、机器翻译、机器视觉和问题求解等方面的研究已有实际应用。近年来对人工神经网络的知识表示、常识推理、机器学习和分布式人工智能等基础性研究也取得了可喜的进展。初期的人工智能技术都是基于物理符号机制和启发式求解的连接机制,近年来有人提出无需表示、无需概念的智能观,对逻辑在人工智能中的作用、知识与概念化、认知与学习、认知与感知、计算智能与人工智能的关系等问题开展了有益的辩论。此外,多学科交叉、人机一体化等观点也影响着人工智能的研究。

      人工智能计算系统的实现依赖于程序设计语言和计算机程序设计方法。程序设计语言的好坏不仅影响到程序使用是否方便,还涉及到程序员所写程序的质量。程序设计语言的发展经历了从低级到高级的发展阶段,低级语言包括字位码、机器语言和汇编语言,其特点是与特定的机器有关,功效高,但使用复杂、烦琐、费时且易出差错。高级语言的表示方法要比低级语言更接近于待解问题,其特点是易学、易用、易维护。程序设计语言的发展趋势是模块化、简明性、形式化、并行化和可视化。模块化是指不仅语言具有模块成分,程序由模块组成,而且语言本身的结构也是模块化的。简明性是指所涉及的基本概念不多,成分简单,结构清晰,易学易用。形式化指要发展合适的形式体系,以描述语言的语法、语义和语用。并行化指发展具有合适并行成分的并行语言。可视化是指要发展“所见即所得”的程序设计语言;程序设计方法是针对某一领域或某一领域的特定一类问题所用的一整套特定的算法。程序设计的发展可以归结为从顺序程序设计到并发程序设计、并行程序设计和分布程序设计,从非结构化程序设计到结构化程序设计,从过程式程序设计到非过程式程序设计、逻辑式程序设计、函数式程序设计、对象式程序设计以及可视程序设计、文化程序设计等,从低级语言工具到高级语言工具。

      3.基础资源的建设

      古文字字库建设和汉字大字符集的编制是大规模古文字自动识别的最基本的基础资源建设。《古文字诂林》的顺利出版是我国古文字字库建设的辉煌成果,也为实现和完善汉字大字符集提供了素材和佐证。

      《古文字诂林》全书约1400万字,汇集了古今中外几百位学者、专家对中国古文字的考释和论证,搜集了近16万个古字形,是迄今为止涉及古字形最多、考释资料最全的研究古文字的特大型工具书。《古文字诂林》数据库的构造既方便了古文字字库的提取,又兼顾了汉字大字符集的扩充,是大规模古文字自动识别的最重要的基础资源。

相关文章: