1 引言 人工智能(Artificial Intelligence,AI)作为新一轮科技创新和产业变革的核心驱动力,正在深刻重塑科学研究范式与知识生产模式。随着生成式人工智能、大模型以及智能算法的快速发展,人工智能与科学技术的深度融合已成为各国提升原始创新能力、抢占未来科技竞争制高点的重要战略方向。为此,主要科技强国相继从国家层面系统部署“人工智能+科学技术”的发展路径,通过强化算力基础设施、推动数据资源整合、培育交叉型人才体系等方式,全面加速人工智能赋能科学研究与技术创新的进程。 2025年8月26日,中国《国务院关于深入实施“人工智能+”行动的意见》[1]明确提出实施“人工智能+科学技术”行动,强调以人工智能赋能基础研究、应用研究与技术创新关键环节,加速科学发现进程。该意见将“加强数据供给创新”“持续加强人工智能高质量数据集建设”“提升跨模态复杂科学数据处理水平”等列为重要任务,凸显了高质量数据资源在“人工智能+科学技术”战略中的基础性地位。2025年11月20日,英国政府发布《AI促进科学战略》(AI for Science Strategy)[2],以发展人工智能驱动科学的前沿能力、巩固英国全球科学领导地位为目标,围绕工程生物学、聚变能、材料科学、医学、量子技术五大优先领域,以数据、计算、人才与文化为三大支柱,定向投资1.37亿英镑以加速AI驱动的科学突破。2025年11月24日,美国政府正式启动人工智能“创世纪计划”(Genesis Mission)[3],该计划由美国能源部(Department of Energy,DOE)牵头[4],整合17家国家实验室的超级计算机资源、联邦政府长期积累的海量科学数据、云端AI计算环境与机器人实验室,构建统一的“美国科学与安全平台”(American Science and Security Platform),以推动生物科技、材料科学、核能、半导体与量子信息等关键领域的智能化科学发现。上述国家战略表明,人工智能已从通用技术跃升为引领科学研究范式变革的基础性力量,而高质量数据及语料资源成为支撑这一变革的关键底座。 与此同时,科学研究正在由以实验、理论与计算为核心的传统范式,迈向以数据与智能深度融合为特征的新范式。科学智能(AI for Science,AI4S)或智能科研(AI for Research,AI4R)[5]作为“人工智能+科学技术”的集中体现,正在系统性重构科学研究的内容、方法与组织方式。在模型构建、知识推理、科学发现、规律挖掘以及科研评价等关键环节,人工智能对数据规模、数据质量、语义标注、结构化程度、跨模态融合能力与可获取性提出了前所未有的高要求[6]。尤其是在生成式人工智能广泛应用的背景下,支撑模型预训练与智能推理的核心资源已从一般意义上的“数据”,进一步演变为具有明确语义结构、学科知识背景与可计算特征的高质量“计算语料”(computable corpus)。这类语料涵盖论文、标准、专利、科技报告、数据集、技术文档等多种内容类型,也包括文本、科学数据、实验记录、视频、图像、表格、公式、代码等多种知识形态。 纵观学术界和产业界,人工智能语料建设已取得显著进展。在通用领域,文本、图像、语音与多模态大规模语料数据集快速扩充,典型代表包括LAION-5B[7]、Common Crawl[8]、ImageNet[9]等。同时,采集、清洗、标注与语义建模等关键技术也不断成熟,显著提升了语料构建的自动化与智能化水平。在垂直领域,医学、农业、材料化学、金融学及语言学等专业语料库加速涌现,例如上海交通大学构建的多语言医疗语料库MMedC[10]、联合国粮食及农业组织开发的AGROVOC关联开放数据集[11]以及材料科学领域的Materials Project开源数据库[12]等。这些语料库在内容质量、结构化程度与知识表达能力方面持续提升,为模型训练、智能分析与行业应用提供了坚实基础。 然而,人工智能语料建设仍面临诸多挑战。首先,语料供给总体不足且质量参差不齐,高价值与多模态资源更新滞后;其次,语料流通体系受制于基础设施条件与治理能力,共享效率偏低,全生命周期安全保障有待加强。此外,在应用环节,语料在质量可信、合规可控与场景适配方面存在短板,导致“不能用、不敢用、不好用”等问题普遍存在[6]。同时,语料开放共享需要在知识产权、数据安全与伦理要求之间取得平衡[13],跨学科融合进一步加大了标准化、语义一致性与持续更新的复杂度。随着模型规模不断扩大、能力持续提升,对语料来源的可追溯性、训练过程的可解释性与结果输出的可信性也提出了更高要求[14-15]。总体而言,人工智能语料建设是一项贯穿信息资源采集、加工、组织、治理、流通与应用全链条的系统工程。 图书馆作为长期承担信息资源采集建设、收藏管理与开发利用职能的专业机构,应在既有数字图书馆建设基础上,进一步拓展对人工智能语料的系统化采集加工、规范化收藏管理与专业化开发利用。这一转向既是科学研究范式与技术环境深刻变革所提出的外在要求,也是图书馆顺应技术演进、实现职能拓展与服务升级的内在动力。在人工智能时代,图书馆参与语料建设与服务,体现了其组织对象、服务对象和服务功能的延伸:①馆藏资源体系在传统文献信息资源基础上,进一步延伸至开放学术资源、科学数据集、技术文档以及网络知识资源等多元类型;②图书馆服务对象由以“人”为中心,逐步演进为同时面向“人—机”交互,主体是面向“机”的服务格局;③图书馆文献查证、收录引证、版本保存等传统专业服务,向人工智能语料的规范管理、安全保障、来源溯源、存证固化、可信校验与长期保存等领域拓展[16]。进入人工智能时代,图书馆将出现新的类型或形态,可称之为“人工智能语料图书馆”(AI corpus library)。