档案检索技术(Archive Retrieval Technology)作为驱动馆藏档案资源与用户利用需求动态匹配,提升档案查找活动整体效率,促进档案社会价值实现的基础性方法和手段,是衡量档案工作水平和档案馆服务能力的重要标志。[1]20世纪80年代以前,我国各级各类档案机构所能提供的档案检索服务主要是基于簿册式目录、书本式目录、卡片式目录和专题索引等纸质工具,由档案利用者通过手工查找档案线索、获取档案文献并逐一阅读档案文本的方式实现的。20世纪80年代至90年代末期,档案计算机检索技术逐步成熟并在各级各类档案馆大规模应用,出现了纸质检索工具与计算机检索系统并存的局面。进入21世纪,随着社会信息化进程的加速推进,书本式目录、卡片式目录等纸质检索工具陆续退出了历史舞台。在绝大多数场合,档案检索技术已经特指借助计算机或其他智能设备组织档案资源、辅助档案利用者查找档案文献的管理活动。2022年11月以来,以ChatGPT、DeepSeek为代表的生成式人工智能技术取得重大突破,由智能机器驱动的人工智能时代已经加速到来。人机深度共生的新时代在对档案检索技术提出严峻挑战的同时,也将为其创新、发展和进化提供重大机遇。从发展趋势来看,“档案事实检索”有望超越“档案文献检索”成为新一代的档案检索技术范式,这种可以直接回应用户精准化事实查证需求、支持机器全流程自动化查档并可以实现档案内容动态重组的新型档案检索技术,必将对我国档案事业的现代化进程产生极为深远的影响。 1 问题提出 1.1 情报学领域事实检索相关研究综述 1987年,姜希强[2]提出:文献检索、数据检索和事实检索并称情报检索的三种基本类型;文献检索提供的是文献,事实检索提供的是情报;文献情报检索系统中含有知识冗余,事实情报检索系统则基本没有冗余。1990年,侯汉清[3]提出:事实检索是指在检索工具或检索系统中查询有关事实,或寻求对某一问题的解答,主要依靠众多的参考工具书来进行,答复众多读者形形色色的提问,是一个复杂的过程。2000年,孟令国等[4]对事实检索与数据检索的逻辑关系进行了系统梳理。2013年,刘彩娥[5]对人文社会科学领域数据与事实检索的原理、方法和工具书体系进行了详细介绍。 1.2 档案学领域事实检索相关研究综述 1990年,冯惠玲等[6]将档案检索分为数据检索、事实检索和文献检索三种类型:数据检索是直接回答利用者所需要的特定主题的精准查询;事实检索是对检索数据加以逻辑推理之后回答利用者的专题查询;文献检索是通过目录为利用者提供文献的存址线索,以便利用者进一步获得文献本身。1996年,霍振礼等[7]明确提出“档案事实检索”这一术语,倡导建立档案内容信息利用系统。1998年,洪漪[8]将档案检索细分为数据检索、事实检索、目录检索和文本检索四种类型:数据检索是检索档案中包含的数据;事实检索是检索档案中涉及的某项事实;目录检索是检索档案的存址和出处信息;文本检索是检索档案全文信息。1999年,冯惠玲[9]延续了将档案检索分为数据检索、事实检索和文献检索的观点,并增加了“智能化检索”。2006年,陈忠海[10]将档案检索分为文献检索、数据检索和事实检索,并指出“档案事实检索以特定档案信息所记录和反映的事实为检索对象,例如某一事件发生的时间、地点、人物和过程等”。2011年,肖秋会[11]将档案检索分为文献信息检索、数值信息检索和事实信息检索三种类型:文献信息检索通常是指对题录、索引、文摘等二次文献信息的检索;数值信息检索是指对数值或数据为对象的检索;事实信息检索是以某一客观事实为对象的检索。此外,黄宝春[12]、莫伟杰[13]、王庆汉[14]等在著作当中也表达了类似观点。 1.3 档案检索技术范式迁移问题的提出 范式(Paradigm)源于希腊语Paradeig-ma,原意是模范或模型。1962年,美国哲学家托马斯·库恩(Thomas Samuel Kuhn)在其代表作《科学革命的结构》中首次使用“科学范式”的概念来描述“在一段时间里为实践者共同体提供模型问题和解答的公认科学成就”[15]。范式作为模型或范例,基于自身的概念、程式、框架为后续的科学研究提供方向引领和启发引导,创新活动局限在范式框架之内,体现为对范式局部或细节的改良或优化。当反常现象出现,科学共同体却无法用现有科学范式进行解释,常规科学范式就会陷入信任危机,新方法或新途径就会开始酝酿。一旦某种新的方法或途径成功解决了危机并被科学共同体接受就会成为新的科学范式,从而进入新一轮的常规科学阶段,即发生了范式迁移(Paradigm Shift)。受到科学范式理论的启发,意大利经济学家乔瓦尼·多西(Goivanni Dosi)于1982年提出了“技术范式”(Technology Paradigm)的概念,致力于通过技术范式产生、发展和迁移的过程解释技术创新和技术进步发生的原理。[16] 本文用“档案检索技术范式”来描述特定时间周期内档案学界和业界对档案检索技术的共识性认知框架和理解模式,将打破档案检索领域的固有认知模式,建立新的共识框架的社会现象称为“范式迁移”。从研究成果来看,学界早在20世纪90年代就已认识到档案检索技术范式的多样性特征,并就档案检索系统可能达到的能力水平进行过初步的思考和探讨。受到信息技术发展水平和档案工作现实条件的制约,我国绝大多数的档案检索研究和实践都是以文献为基本单元,以为利用者提供相关档案文献的背景线索以便其获得档案文献原件或数字复制件为主要目标,本质上是一种粗粒度的文献检索模式。随着人工智能时代的到来,越来越多的档案应用场景将演变为全流程由计算机或智能设备负责基础数据处理的自动化模式,要求机器具备读取和理解档案文献内容信息的能力。[17]然而,档案文献检索主要为档案人工查阅提供支持,机器能够处理的只是档案文献的背景或线索信息而不是档案的内容信息,对人工阅读环节的依赖与机器自动化查档需求之间的矛盾已经开始显现。近年来大语言模型(Large-scale Language Model,LLM)发展风起云涌,但是大语言模型所能模拟的是人类自然语言的生成机制,本质上是通过大规模预训练获得的输入与输出对应关系经验参数模型,在缺乏大规模档案领域知识库的情况下,目前尚不能精准可靠地解析档案文本的事实类语义信息。在档案文献检索技术的基础上,针对人工智能时代对档案利用模式的全新挑战,构建新的档案检索技术范式,探索档案检索技术范式迁移的客观规律,已经成为迫切需要关注的重大战略性问题。