1 引言 作为新一代人工智能技术的主流探索方向,大语言模型(Large Language Models,以下简称大模型)是基于海量数据训练、拥有巨量参数的模型。目前自然语言处理(Natural Language Processing,简称NLP)领域几乎所有的先进模型都是基于Transformer[1]大模型架构进化而来的。这标志着大模型开始逐渐引领人工智能技术发展的范式变革,各领域的数字化、智能化系统未来均将建立在大模型之上[2]。人工智能时代的档案工作面临着档案数量骤增、档案载体与形式多元化、档案应用场景复杂化、人机交互新生态等诸多挑战。为充分理解、科学把握档案工作利用大模型技术的风险,应首先从理论层面重新审视大模型对档案学基础理论的挑战,以及档案学基础理论应如何进行自我修正以对这些挑战作出恰当回应,切实为人工智能时代的档案工作提供理论指导。 2 问题提出与文献梳理 2.1 研究问题 2022年末,以ChatGPT为代表的大模型深刻影响了全球AI产业的发展轨迹,开启了科学智能(AI4Science)赋能科学发现的第五范式,并为行业重塑、专业变革注入了新动力,如以医学、金融、工业、政务、科研等为代表的垂直领域的大模型已开始改变行业生态,并持续向细颗粒度应用深化。在信息资源管理领域,人工智能技术对其核心原理,如信息生命周期、信息作为资源的核心定律、不同层次信息资源管理理论产生影响,甚至可能导致传统信息资源管理知识体系、理论、方法、技术等失去描述与解释力,步入过时、失效甚至被遗弃的境地[3]。档案学作为信息资源管理学科下的传统二级学科,其科学研究和实践场景也不可避免受大模型的影响。尤其是在数智时代,档案管理范畴已从传统模拟态扩展至数字态和数据态维度,管理重点由物理实体保管转向以逻辑结构为核心的管理,档案管理场所由物理空间延伸至数字空间[4],档案工作者从文件/信息管理者转变为经验提供者和决策制定者。这些转变催生了档案学基础理论的变革,而大模型势必通过对科学研究和实践场景的影响,进一步促使档案学基础理论的自我更新。 档案学基础理论受大模型技术的挑战已是既定前提,需进一步解释的问题为“大模型如何影响档案学基础理论?而档案学基础理论又应当如何回应大模型提出的挑战?”回答以上两大关键问题,需要以解决生成式人工智能(以下简称AIGC)之于档案、智能体(AI Agent)之于档案工作者、自动化AI工作之于档案实践场景所映射出的档案学基础理论困境为前提,并探索相应的理论修正路径。 2.2 文献回顾 目前,国内外关于大模型对档案学基础理论影响的研究仍较少,但关于较为宽泛的人工智能与档案学领域的结合性研究已逐渐成为热点。在实践领域,随着政府、企业和其他组织数字化转型,产生了海量电子文件归档、大数据归档问题,部分档案馆开始应用人工智能技术,如瑞士纳沙泰尔国家档案馆(State Archives of Neuchâtel)主导完成的Archi Select项目从加强鉴定理论与人工智能深度融合等方面,缓解人工智能由于算法不透明性、潜在的算法偏见以及数据隐私问题所引发的公众信任缺失和监管的可信性难题[5]。2024年10月17日,美国国家档案与文件管理署(NARA)发布新战略框架:负责任地使用人工智能进行能力建设,目标之一是集成人工智能、机器学习和机器人流程自动化,以增强数据管理、审查和对文件的访问[6],并且总结了按年份划分的Al使用案例清单[7]。在理论研究领域,数字化转型给“来源”和“原始顺序”等档案概念带来了压力[8],引发学者们关于“文件、证据、永久性、唯一性、真实性、所有权和保管”等档案概念相关性和意义的讨论。迈克尔·莫斯(Michael Moss)等人将“档案”重新概念化为“有待挖掘”的数据集合,档案工作者需要知晓管理电子文件的工具和技术[9]。为回应挑战,肯尼斯·蒂博多(Kenneth Thibodeau)提出,通过结合系统功能语言学(通过对上下文的实证分析提供理解出处的框架)和图论(捕捉各种关系)来丰富和重新界定档案的概念,并以此提升对文件的理解[8]。乔瓦尼·科拉维扎(Giovanni Colavizza)提倡,将人工智能的结构性、批判性意识整合到档案系统中,并反过来将档案存储原则应用于为人工智能提供动力的数据管理领域[10]。弗兰克·阿普沃德(Frank Upward)研究团队在《网络时代的文件管理信息学》一书中,提出以文件管理信息学(Recordkeeping Informatics)作为支持纳秒存档的框架,强调技术环境中通过“级联铭文(cascading inscriptions)”①不断生成文件信息,“实时档案化控制(nanosecond archiving)”业务活动流程信息[11]53。国际电子系统中文件真实性永久保障国际合作项目(InterPARES)的第五个阶段InterPARES Trust AI(2021-2026)的目标之一是,确保档案概念和原则为负责任的人工智能发展提供信息②,同时实现其在档案、文化遗产和治理等各个领域的潜在利益[12]。InterPARES Trust AI研究组是档案与人工智能研究的引领者。其中,杰西卡·布希(Jessica Bushey)对AI生成图像作为一种新兴文件格式进行文献综述发现,研究缺乏档案和文件管理知识,综述揭示六个研究主题:真实性与可验证性、操控与错误信息、偏见与代表性、归属与知识产权、透明性与可解释性以及伦理考虑[13]。此外,研究组从社会科学研究和数字文化遗产领域引入“Paradata”一词,将其定义为“有关用于创建和处理信息资源的程序和工具的信息,以及有关执行这些程序的人员信息”。这一概念有助于确保AI驱动系统的设计从一开始就尊重档案道德,并有助于评估现成的自动化解决方案[14]。杰里米·戴维特(Jeremy Davet)等人认为旁数据(Paradata)③有助于识别和记录档案中使用的AI技术及其使用方式,帮助档案工作者理解AI过程[15]。