来源期刊

刊名：图书馆学情报学

主办单位：中国人民大学书报资料中心

期次：2026年04期

人工智能语料图书馆：内涵、功能需求与建设路径

引用| 收藏 |打印|下载word

作　　者：

刘细文

作者简介：

刘细文，博士，中国科学院文献情报中心研究员，博士生导师，中国科学院大学经济与管理学院信息资源管理系，E-mail：liuxw＠mail.las.ac.cn；钱力，博士，中国科学院文献情报中心正高级工程师(北京 100190)，中国科学院大学经济与管理学院信息资源管理系(北京 100190)；涂志芳，中国科学院文献情报中心副研究馆员，博士(北京 100190)。

原文出处：

图书情报工作

内容提要：

[目的/意义]在AI4S加速发展和国家“人工智能+科学技术”战略背景下，高质量、可计算的语料资源已成为支撑大模型预训练与智能科学发现的核心要素。图书馆作为社会基础设施，其功能正面临向人工智能语料建设与服务转型的现实要求。界定“人工智能语料图书馆”的内涵和核心功能，为相关理论研究与建设实践提供参考。[方法/过程]通过概念辨析与演进分析，厘清人工智能语料图书馆的本质特征，将其阐释为“数据库×语料库×数字图书馆”的深度融合与功能重构。从技术演进、社会应用及监管治理3个维度剖析其功能需求，并结合美国HathiTrust的“文本即数据”模式与英国国家图书馆的“数字学术”实践，总结数字图书馆向语料图书馆的转型逻辑。[结果/结论]研究认为，人工智能语料图书馆是以多模态、可计算语料为核心对象的新型知识基础设施，支撑智能设施的高效稳定运行，是实现人工智能治理的有效途径之一。其建设应遵循以数据驱动为顶层逻辑、以知识组织为中间机制、以智能体应用为功能创新的架构体系。通过既有馆藏数据的语料化升级，语料图书馆构建“非消耗式利用”增值服务模式，嵌入数字学术流程，实现功能拓展与智能升级。

期刊代号：G9

分类名称：图书馆学情报学

复印期号：2026 年 04 期

关键词：

人工智能人工智能语料图书馆高质量数据知识基础设施人工智能治理

字号：大中小

　　1 引言

　　人工智能(Artificial Intelligence，AI)作为新一轮科技创新和产业变革的核心驱动力，正在深刻重塑科学研究范式与知识生产模式。随着生成式人工智能、大模型以及智能算法的快速发展，人工智能与科学技术的深度融合已成为各国提升原始创新能力、抢占未来科技竞争制高点的重要战略方向。为此，主要科技强国相继从国家层面系统部署“人工智能+科学技术”的发展路径，通过强化算力基础设施、推动数据资源整合、培育交叉型人才体系等方式，全面加速人工智能赋能科学研究与技术创新的进程。

　　2025年8月26日，中国《国务院关于深入实施“人工智能+”行动的意见》[1]明确提出实施“人工智能+科学技术”行动，强调以人工智能赋能基础研究、应用研究与技术创新关键环节，加速科学发现进程。该意见将“加强数据供给创新”“持续加强人工智能高质量数据集建设”“提升跨模态复杂科学数据处理水平”等列为重要任务，凸显了高质量数据资源在“人工智能+科学技术”战略中的基础性地位。2025年11月20日，英国政府发布《AI促进科学战略》(AI for Science Strategy)[2]，以发展人工智能驱动科学的前沿能力、巩固英国全球科学领导地位为目标，围绕工程生物学、聚变能、材料科学、医学、量子技术五大优先领域，以数据、计算、人才与文化为三大支柱，定向投资1.37亿英镑以加速AI驱动的科学突破。2025年11月24日，美国政府正式启动人工智能“创世纪计划”(Genesis Mission)[3]，该计划由美国能源部(Department of Energy，DOE)牵头[4]，整合17家国家实验室的超级计算机资源、联邦政府长期积累的海量科学数据、云端AI计算环境与机器人实验室，构建统一的“美国科学与安全平台”(American Science and Security Platform)，以推动生物科技、材料科学、核能、半导体与量子信息等关键领域的智能化科学发现。上述国家战略表明，人工智能已从通用技术跃升为引领科学研究范式变革的基础性力量，而高质量数据及语料资源成为支撑这一变革的关键底座。

　　与此同时，科学研究正在由以实验、理论与计算为核心的传统范式，迈向以数据与智能深度融合为特征的新范式。科学智能(AI for Science，AI4S)或智能科研(AI for Research，AI4R)[5]作为“人工智能+科学技术”的集中体现，正在系统性重构科学研究的内容、方法与组织方式。在模型构建、知识推理、科学发现、规律挖掘以及科研评价等关键环节，人工智能对数据规模、数据质量、语义标注、结构化程度、跨模态融合能力与可获取性提出了前所未有的高要求[6]。尤其是在生成式人工智能广泛应用的背景下，支撑模型预训练与智能推理的核心资源已从一般意义上的“数据”，进一步演变为具有明确语义结构、学科知识背景与可计算特征的高质量“计算语料”(computable corpus)。这类语料涵盖论文、标准、专利、科技报告、数据集、技术文档等多种内容类型，也包括文本、科学数据、实验记录、视频、图像、表格、公式、代码等多种知识形态。

　　纵观学术界和产业界，人工智能语料建设已取得显著进展。在通用领域，文本、图像、语音与多模态大规模语料数据集快速扩充，典型代表包括LAION-5B[7]、Common Crawl[8]、ImageNet[9]等。同时，采集、清洗、标注与语义建模等关键技术也不断成熟，显著提升了语料构建的自动化与智能化水平。在垂直领域，医学、农业、材料化学、金融学及语言学等专业语料库加速涌现，例如上海交通大学构建的多语言医疗语料库MMedC[10]、联合国粮食及农业组织开发的AGROVOC关联开放数据集[11]以及材料科学领域的Materials Project开源数据库[12]等。这些语料库在内容质量、结构化程度与知识表达能力方面持续提升，为模型训练、智能分析与行业应用提供了坚实基础。

　　然而，人工智能语料建设仍面临诸多挑战。首先，语料供给总体不足且质量参差不齐，高价值与多模态资源更新滞后；其次，语料流通体系受制于基础设施条件与治理能力，共享效率偏低，全生命周期安全保障有待加强。此外，在应用环节，语料在质量可信、合规可控与场景适配方面存在短板，导致“不能用、不敢用、不好用”等问题普遍存在[6]。同时，语料开放共享需要在知识产权、数据安全与伦理要求之间取得平衡[13]，跨学科融合进一步加大了标准化、语义一致性与持续更新的复杂度。随着模型规模不断扩大、能力持续提升，对语料来源的可追溯性、训练过程的可解释性与结果输出的可信性也提出了更高要求[14-15]。总体而言，人工智能语料建设是一项贯穿信息资源采集、加工、组织、治理、流通与应用全链条的系统工程。

　　图书馆作为长期承担信息资源采集建设、收藏管理与开发利用职能的专业机构，应在既有数字图书馆建设基础上，进一步拓展对人工智能语料的系统化采集加工、规范化收藏管理与专业化开发利用。这一转向既是科学研究范式与技术环境深刻变革所提出的外在要求，也是图书馆顺应技术演进、实现职能拓展与服务升级的内在动力。在人工智能时代，图书馆参与语料建设与服务，体现了其组织对象、服务对象和服务功能的延伸：①馆藏资源体系在传统文献信息资源基础上，进一步延伸至开放学术资源、科学数据集、技术文档以及网络知识资源等多元类型；②图书馆服务对象由以“人”为中心，逐步演进为同时面向“人—机”交互，主体是面向“机”的服务格局；③图书馆文献查证、收录引证、版本保存等传统专业服务，向人工智能语料的规范管理、安全保障、来源溯源、存证固化、可信校验与长期保存等领域拓展[16]。进入人工智能时代，图书馆将出现新的类型或形态，可称之为“人工智能语料图书馆”(AI corpus library)。

共12条结果上一页12 3 4 5 6 下一页全部展开

扎根理论在国内信息资源管理领域的应用探析

张向怡虹

图书馆...2026年第02期
流动的丰盈：面向可信数据空间建设的理论观...

胡峰

图书馆...2026年第02期
“融合-协同-共享”理念下专题性文献遗产数...

周晓英

图书馆...2026年第02期
大学生学术信息搜寻挫折量表的开发与验证

黄崑

图书馆...2026年第02期
科技创新政策分析的大数据支撑体系研究

贺德方

图书馆...2026年第02期

来源期刊

人工智能语料图书馆：内涵、功能需求与建设路径

相关文章：