超越文本中心主义:多模态技术驱动下的中文数字人文转型

作  者:
刘炜 

作者简介:
刘炜,上海社会科学院信息研究所研究员,研究方向为知识组织、数字人文(上海 200235);单蓉蓉(通讯作者),上海大学文化遗产与信息管理学院博士研究生,研究方向为数字人文,E-mail:shan_rongrong@163.com(上海200444);金家琴,上海大学文化遗产与信息管理学院博士研究生(上海 200444),上海图书馆馆员,研究方向为数字人文,人工智能应用(上海 200031)。

原文出处:
信息资源管理学报

内容提要:

数字人文研究长期以文本分析为核心,但“文本中心主义”范式在中文语境下暴露出字符集覆盖不足、OCR识别率不高、非文本文化信息流失等问题,限制了对中国物质与非物质文化遗产的系统研究。多模态技术的兴起为中文数字人文开辟了转型路径。本研究首先剖析了文本中心主义的局限,继而探讨多模态融合技术的关键突破,以DeepSeek的Janus Pro模型为例,论证统一多模态大模型在古籍数据化、智能体构建与文化遗产保护等方面的应用潜力。研究表明,多模态技术通过跨模态协同重构文化记忆、强化文化认同,为中文数字人文的转型发展提供了技术支持与方法论重构的双重支撑。


期刊代号:G9
分类名称:图书馆学情报学
复印期号:2026 年 01 期

字号:

  1 引言

  早期以文本为中心的基础设施建设虽对数字人文的发展起到了推动作用,但同时也形成了“文本中心主义”,局限了中文数字人文的研究视野,多模态大模型技术的兴起则为突破这一局限提供了新的可能。以DeepSeek为代表的统一大模型通过整合图像、音频、视频、3D模型等多源异构数据,不仅提升了文化遗产保存的全面性,也支持历史语境的多维重建和社会记忆的沉浸式再现,进一步赋能中文数字人文平台建设与跨学科融合。

  2 中文数字人文的困境:文本中心主义的茧房

  文本长期被视为文化遗产的核心载体,其数字化处理构成了数字人文研究的基石。但过度依赖文本分析导致研究视野受限,正如Meeks[1]所言,数字人文“过于偏重文本”(too text heavy),Champion[2]、Manovich[3]、Paul[4]等学者也批评了这种单一的文本分析范式,呼吁关注图像、音频、视频、3D模型等非文本媒介,以捕捉文本难以承载的情感维度、行为特征和社会动态。在中文语境下,文本中心主义的局限性表现更为明显。

  2.1 中文文本处理的结构性局限 (1)字符集覆盖不足,阻碍古籍数据化。尽管Unicode、GBK、UTF-8等字符集不断扩容,但难以覆盖古籍中的异体字、俗写字和合文符号。首先,俗写字、合文字符需要人工标注或自定义编码,处理速度慢;其次,甲骨文、金文等象形文字难以纳入通用字符集,需拓片或手绘复原保存;最后,受经济成本制约,开发专用字库成本高且有一定的滞后性,中小型研究机构难以承担。 (2)光学字符识别(OCR)准确率受限于复杂的文献形态。印刷文本的OCR识别率可达94%,但古籍因纸张脆化、墨迹晕染和排版等问题,识别率仅在70%至80%左右。现有OCR识别障碍主要包括:保存不当造成字形变异、缺失;竖排无标点、批注穿插的排版格式造成机器识别困难;手写体与印刷体混合,以及藏书印章等特殊符号会被误判为乱码或噪声;商业OCR工具对古籍适配性不足,需要定制开发。 (3)标准化处理造成文化意涵流失。汉字兼具视觉与文化意义,其数字化处理不仅是符号转译,更是文化语境的抽象。然而在文本转码过程中,甲骨文的象形特征、青铜器铭文的铸造痕迹、金石碑帖的题跋印章等非文本信息常被简化或剥离忽略,这些要素对学术考据与艺术鉴赏至关重要,标准化处理会大幅压缩文化信息的维度。

  2.2 物质文化研究的多维需求挑战:从单一文本到多维全息的研究范式转型

  物质文化研究融合人类学、考古学、历史学等多学科,关注物理的空间形态、材质、工艺及感官特征。传统文本记录虽能部分描述物质特征,却无法呈现其动态性与交互性。尤其是传统戏曲、杂技美术、民俗活动等非物质文化遗产,亟需多模态技术实现全息数字化保存。随着当代物质文化研究范式转向“回归到物”[5],激光雷达、摄影测绘、3D模型等现代技术已应用于文物遗址的数字化重建,其中高精度扫描可有效揭示微观工艺特征。考古遗址的空间特征、民宿活动的音像动态、传统艺术的技艺与情感表达等非文本信息,均亟待全息多维的记录与分析。

  2.3 文本中心主义的系统性缺陷

  首先,囿于文本中心主义的认知框架,传统技术方法过度依赖文本分析,忽略了其他信息。例如,古籍研究中的纸张纤维结构特征、墨迹氧化程度等信息对鉴定文献年代至关重要,但这些微观信息需要显微成像和材料分析技术才能获取解析。其次,传统自然语言处理工具对非结构化数据的处理能力不足,如词频统计和主题建模难以解析音律模式、动作编码等多模态数据。这种局限性使得多模态表达被简化为线性文本描述,造成信息维度的扁平化[6],进一步强化现有的文本中心主义,导致非物质文化遗产在数字化进程中面临二次边缘化风险。

  突破文本中心的桎梏需要构建多模态融合的研究范式,这既是技术层面的创新,也是方法论上的重构。在技术层面,3S技术(GIS、RS、GPS)、三维激光扫描仪(3D LiDAR)、扩展现实技术(XR)、3D打印技术以及人工智能等技术集群的协同应用,可实现空间数据、影像数据等多源信息的采集和处理,为物质文化的数字孪生构建、文化遗产保存修复提供技术支撑。在方法论层面,跨模态分析成为变革性方法,利用元数据、知识图谱、关联数据构建多模态资源组织框架,通过微调、检索增强生成(RAG)、预训练等范式提高模型的理解能力,实现跨模态信息交互和融合。

  多模态研究促进人文研究从文本解析转向物质性关注,增强文化表达的多样性。沉浸式数字、虚实融合的阐释方式不仅能更生动地传递文化内涵,还能重塑历史认知、文化保存与文化认同建构的路径——通过技术赋能让物质文化成为可感知、可交互的知识载体。

  3 多模态融合的解决方案:从多模态大模型到统一多模态大模型的技术突破

  3.1 多模态大模型的发展历程

  随着人工智能技术的发展,多模态大模型从单模态的文本大模型(Large Language Model,LLM)发展到跨模态协同的多模态大模型(Multimodal Large Language Model,MLLM),再到统一架构和参数的统一大模型(Unified Multimodal Large Models或Large Multimodal Models),其核心突破是解决了模态割裂、任务冲突和计算效率等问题,为多模态数据处理提供了新方案。

相关文章: