1 背景与现状 1.1 研究背景:作为国家战略的“主权AI” 进入21世纪第三个十年,人工智能(AI)已然成为驱动全球经济社会变革的核心引擎。在此背景下,“主权AI”(Sovereign AI)作为一个新兴的战略概念,正迅速从技术层面的讨论上升为国家层面的核心议程[1-2]。它标志着全球技术治理格局正经历一场深刻的变革,从强调开放互联,转向更加注重战略自主与核心能力的内生性发展。主权AI并非简单的技术口号,而是国家在数字时代维护经济利益、保障国家安全、传承文化价值的综合性战略框架。 根据英伟达(NVIDIA)、Salesforce等科技领军企业及学术界的界定,主权AI的核心是指一个国家或组织利用其自主拥有的基础设施、数据资源、技术人才和商业网络,独立进行人工智能模型构建、部署与创新的综合能力[3,4]。这一能力体系建立在若干关键支柱之上,普遍认可的包括数据主权、基础设施控制、技术人才储备、创新投资以及国家利益维护五大要素[5]。更有研究将其细化为算力基础设施、算力提供商、治理与法规、基础AI模型、研发基础、技术人才库和芯片能力等七个维度,强调了全产业链自主可控的重要性[6,3]。在全球范围内,印度、日本、阿联酋、英国等国已纷纷出台相关政策,投入巨资建设本国的“AI工厂”和“主权云”,力求在激烈的全球AI经济竞争中占据优势,并根据各自国情制定了差异化的战略。[7,8] 这一全球趋势深刻地反映出,对“数字主权”的理解正在发生质的飞跃[9]。从欧盟GDPR等传统数字主权的防御性态度,向主权AI代表的积极主动、生成性战略转变。主权AI的重点不再仅限于保护现有数据资源,而是致力于自主构建与生产全新的智能能力与知识体系。[9,10]这种从“防守”到“创造”的范式转变,为中国在新的历史时期加速构建自主知识体系,提供了强有力的外部参照和深刻的内在动力。 1.2 问题提出:数字人文领域的“知识赤字”与“范式依附” 在主权AI的全球浪潮之下,中国学术界面临着加快建构中国自主知识体系的紧迫任务。数字人文学科作为人文科学与数字技术深度交叉融合的前沿领域,其知识体系的自主性问题尤为突出和关键。数字人文不仅关乎学术研究方法的革新,更直接触及文化遗产的数字化保存、阐释与传播,是国家文化软实力在数字空间的核心体现。然而,当前中国数字人文学科的发展,在一定程度上仍面临着理论、工具和数据层面的“范式依附”困境。 这种依附关系在全球化的数字环境中,极易演变为一种更为隐蔽的“数字殖民主义”(Digital Colonialism)[11]。西方科技巨头通过其在全球范围内部署的数字基础设施、算法平台和数据标准,实质上掌握了知识生产与传播的主导权。它们大规模地提取全球数据资源,包括珍贵的文化遗产数据,用于训练其AI模型,从而形成新的、不对等的权力关系。当AI模型主要基于西方语料和价值观进行训练时,其输出必然会内嵌特定的文化偏见,这可能导致对中华文化的误读、曲解甚至使其边缘化,最终造成国家话语权的旁落。中国学界对此已有清醒的认识,明确提出必须突破概念移植的路径依赖,立足中国实践,构建自主的话语体系[12]。 因此,在主权AI的宏大战略框架支撑下,中国数字人文学科应如何系统性地规划和建设自主的知识体系,从而有效应对范式依附与知识安全挑战,并最终实现学科的内生性、创新性发展?这是亟须深入探讨的核心问题。 1.3 研究现状、思路与创新点 在“计算转向”(computational turn)的驱动下,数字人文在过去二十年快速发展,从早期的技术实践探索,转向更加系统化的学科范式,并聚焦于“远读”(distant reading)、“宏观分析”(macroanalysis)等新的理论与方法创新,重新审视知识生产与文化解释的关系。施赖布曼(Schreibman)等主编的《数字人文指南》[13]为数字人文确立了工具、方法与案例互补的通用研究框架;伯迪奇(Burdick)等人则提出数字人文是对知识组织、公共人文和学术传播形式的系统性重塑[14]。具体到实践方法,莫雷蒂(Moreti)的“远读”[15]和乔克斯(Jockers)的“宏观分析”[16]推动了从传统的单篇细读(close reading)到大规模文本定量分析的转变。安德伍德(Underwood)与派珀(Piper)则利用机器学习和计算风格学(computational stylistics)方法等,深化了计算文学史与文化分析的理论和实证基础[17,18]。 尽管国际主流的数字人文研究范式提供了方法论和技术路径,但其语料建构、分类体系与指标设计均深植于英美学术语境,直接预设了“西方中心”的知识结构与价值取向,难以有效应用于汉文典籍与中华文化语境中。 近年来,聚焦知识体系中的不平等,围绕后殖民与去殖民议题的数字人文批判性研究逐渐兴起。里萨姆(Risam)系统梳理了“全球南方”(Global South)的数字人文项目,阐明元数据标准、语料采集及平台治理中普遍存在的结构性不平等,并倡导通过社区参与和多语种知识组织来打破学术与技术的“双重中心化”。[19]库德里(Couldry)和梅希亚斯(Mejias)提出了“数字殖民主义”理论,剖析了平台资本如何通过数据掠取重塑全球权力关系。[20]比尔哈内(Birhane)则从“算法殖民化”(Algorithm colonization)的角度,分析了AI系统持续再生产的结构性不利[21]。这些批判性研究,深刻揭示了知识生产中的结构不对称,为思考“话语与语义层面的主权”提供了重要的理论参考。