大模型在档案工作数智转型中的应用:新机遇、新模式和新转变

作  者:
牛力 

作者简介:
牛力,博士,中国人民大学信息资源管理学院教授,中国人民大学数据工程与知识工程教育部重点实验室,中国人民大学CIO研究中心,中国人民大学档案事业发展研究中心,研究方向为数字人文、档案知识组织,E-mail:rucniuli@ruc.edu.cn(北京 100872);金持,中国人民大学信息资源管理学院博士研究生,研究方向为数字人文、知识组织与服务;黎安润泽,中国人民大学信息资源管理学院博士研究生,研究方向为数字人文、知识组织与服务(北京 100872)。

原文出处:
档案学通讯

内容提要:

档案资源形态演化、技术环境变迁和用户需求提高等内外因素变革驱动档案工作数智转型,亟待突破物理、数字双空间发展模式跃迁至知识空间。然而智能化工具的缺位导致数智转型缺少技术支点。大模型技术的出现对档案等公共服务产业造成冲击,也为档案工作全链路技术升级带来新机遇。从大模型核心技术出发,分析档案工作数智转型现状、大模型实践场景和理论研究,明确大模型技术嵌入档案工作的必要性和可行性,结合CVP技术栈思想提出知识空间档案工作“大模型+”技术嵌入框架,探索档案知识“收管存用”新模式,进而探讨大模型驱动档案工作产生的人机关系、工作场域和工作模式的新转变,以期为大模型技术嵌入档案工作提供参考。


期刊代号:G7
分类名称:档案学
复印期号:2025 年 01 期

字号:

  当前,档案工作处于兼顾实体档案和数字档案,物理、数字双空间协同发展阶段。[1]随着新一代信息技术的发展,《“十四五”全国档案事业发展规划》[2]指出当前档案工作环境、对象、内容发生了巨大变化,迫切要求档案工作理念、方法、模式创新,加快全面数智转型。管理对象演化、技术发展和需求提高等多重因素驱动档案工作进入技术应用范围更广、工具智能化程度更高的知识空间,以适应档案工作的转型升级,同时也带来了在新环境中档案知识如何获取、管理、存储和使用等一系列新问题。

  2022年末,以ChatGPT为代表的大语言模型(Large Language Model,LLM)开启了人工智能新时代,即包含百亿级及以上参数规模的大型预训练语言模型(以下简称大模型)。[3]大模型在通用性、交互性、扩展性、自适应性等方面都取得了质的飞跃,在世界范围内掀起了研发与应用的浪潮。大模型在生产生活中的快速渗透影响着档案资源的形成、存储和利用方式,由点及面对档案等公共服务业态造成冲击。同时,大模型在实际场景中展现出了巨大应用潜力,能够为档案工作的“收管存用”全链路技术升级提供动能,为档案工作数智转型提供有效手段和方法。档案部门需把握住难得机遇,积极探索大模型与档案工作的结合之道,及时做出适应发展需要的规划与布局。

  部分学者已结合ChatGPT的功能性探究其在档案领域中应用方向和风险挑战[4-6],但多数研究仅从ChatGPT视角开展,探讨较通用性场景和AI伦理问题,尚未从核心技术层针对性地探究大模型与档案工作的结合点、结合方法与系统性影响,为本文留下了探索的空间。为此,本文从大模型核心技术出发,面向档案工作数智转型,回答大模型为什么可以应用、如何应用与应用效果如何等问题,探索未来档案工作的实践方向。

  1 新机遇:大模型技术嵌入档案工作的必要性与可行性

  1.1 档案工作亟待数智转型,缺乏技术支点

  在科学研究“第四范式”和知识经济时代背景下,档案资源成为一种重要的知识资源[7],带动着档案研究对象范围逐步扩大,不仅包含既有的电子文件,还包括社交媒体档案等网络资源[8],以及公共数据和政务数据资源等[9]。这意味着档案资源量级在爆发式增长,呈现出档案资源多源化、内容多样化、载体泛在化和需求复杂化的现状[10],产生传统档案工作难以应对的挑战。对此,祁天娇等[11]认为需突破传统信息服务模式,使档案直接参与到知识生产、传播和利用服务中;张斌等[12]提出应推动档案资源利用从低阶、单维的案卷级服务向高阶、多维的知识级服务转型;钱毅[13]则认为面向档案资源形态变化,档案信息化建设呈现资源粒度不断细化和语义不断融合的趋势,工具的升级将推动档案信息化逐步从文件管理走向知识管理。可见,档案工作关注点逐步从数字档案转移至档案知识,呼唤突破现有双空间发展模式的变革,推动档案工作向围绕档案知识展开的知识空间转型。

  信息技术能力和工具智能性与知识空间档案工作发展呈强相关。然而,当前档案工作技术实践主要围绕数字档案鉴定[14]、利用控制[15]、开发服务[16]等方面开展,核心技术以基于规则的统计方法和有监督小模型为主[17],存在理解能力、自适应能力和泛化能力较弱等先天弊端,导致技术工具使用壁垒高、可拓展性弱、维护周期短,技术应用的广度和深度受限,档案工作仍以人工操作为主,停留在“你查我调”的被动工作模式中。

  1.2 大模型及复杂场景落地,提供实践支撑

  ChatGPT类大模型被视为“通用人工智能”的曙光,体现在实现了四个层面的跨越。一是跨任务类型,大模型能够处理如文本翻译[18]、摘要生成[19]、信息抽取[20]、文本分类[21]等多类型任务并取得出色表现;二是跨知识领域,大模型在涵盖自然科学、社会科学和人文科学的十余项标准化考试中能够取得媲美人类的成绩,展现出强大知识储备[22];三是跨模态生成,如GPT4、“文心一言”等大模型系统均已实现跨文本、图像等多模态内容生成功能;四是跨人机交互,大模型的核心GPT技术已沉淀多年并非“横空出世”,而ChatGPT之所以能够引起巨大反响,在于其基于自然语言的人机交互模式,使非专业用户通过简明对话便能“享用”上述科技成果。

  基于大模型的强大性能和相关技术的逐步成熟,国内外诸多企业将大模型应用在实际场景中,如在法律领域,美国科技公司EvenUp推出针对人身伤害索赔的大模型,通过读取医疗和案件档案生成损害估算、总结并形成完整的处理报告,已在500余家律所应用[23];在医疗领域,医联推出医疗语言模型MedGPT,基于多模态诊断文件和患者对话信息,实现医疗文档生成、医疗诊断和咨询,已为国内外诸多医师提供诊疗辅助[24];在电力领域,南方电网公司推出电力大模型“大瓦特”,具备场景识别、指挥作业及管控安全风险等能力,已应用于广东等五省区的80余个电力场景[25]。大模型在复杂场景中的部署落地,充分说明了其在实际场景中的应用可行性,为进一步拓宽应用场域、嵌入档案工作提供实践支撑。

  1.3 图情档学界论证研究,形成应用共识

  大模型的快速发展和相关产业的落地应用,引起图情档界的高度关注。2023年11月15日,笔者以“大模型or ChatGPT or新一代人工智能”为篇名检索词在中国知网知识库中进行精确检索,共得到结果1325条,通过筛选得到与图书情报与档案管理领域相关文献46篇,其中图书情报界的研究成果颇丰,共39篇,档案界相对较少,共7篇。档案馆与图书情报部门共同肩负为社会提供知识服务的使命,既有研究可为大模型嵌入档案工作提供启示。

相关文章: