大模型驱动的学术文本挖掘

作  者:
陆伟 

作者简介:
陆伟(1974- ),男,博士,武汉大学信息管理学院教授,博士生导师,武汉大学信息检索与知识挖掘研究所,研究方向为信息检索、数据智能、人机协同,E-mail:weilu@whu.edu.cn;刘寅鹏(1998- ),男,武汉大学信息管理学院,武汉大学信息检索与知识挖掘研究所,博士研究生,研究方向为文本挖掘、文档智能;石湘(1998- ),男,武汉大学信息管理学院,武汉大学信息检索与知识挖掘研究所,博士研究生,研究方向为文本挖掘、文档智能;刘家伟(1994- ),男,博士,武汉大学信息管理学院,武汉大学信息检索与知识挖掘研究所,研究方向为信息检索、信息安全;程齐凯(1989- ),男,博士,武汉大学信息管理学院副教授,武汉大学信息检索与知识挖掘研究所,研究方向为文本挖掘、信息检索;黄永(1991- ),男,博士,武汉大学信息管理学院副教授,武汉大学信息检索与知识挖掘研究所,研究方向为文本挖掘、科学计量;汪磊(2000- ),男,武汉大学信息管理学院,武汉大学信息检索与知识挖掘研究所,硕士研究生,研究方向为信息抽取、文本挖掘(武汉 430072)。

原文出处:
情报学报

内容提要:

大型语言模型突出的任务理解和指令遵循能力,使用户可以通过简单的指令交互完成复杂的信息处理任务。科技文献分析领域正在积极探索大模型的应用,但尚未形成对指令工程技术和模型能力边界的系统性研究。本文以学术文本挖掘任务为切入点,从上下文学习、思维链推理等角度设计推理端指令策略,构建了涵盖文本分类、信息抽取、文本推理和文本生成4个能力维度共6项任务的大模型学术文本挖掘专业能力评测框架,并选取了7个国内外主流的指令调优模型进行实验,对比了不同指令策略的适用范围和不同参数模型的专业能力。实验结果表明,少样本、思维链等复杂指令策略在分类任务上的应用效果并不显著,而在抽取、生成等难度较高的任务上表现良好。千亿级参数规模的大模型经过指令引导,能够取得与充分训练的深度学习模型相近的效果,但对于十亿级或百亿级规模大模型,推理端的指令策略存在明显上限。为了实现大模型向科技情报领域的深层嵌入,现阶段仍需在调优端对模型参数进行领域化适配。


期刊代号:G9
分类名称:图书馆学情报学
复印期号:2025 年 01 期

字号:

  0 引言

  经过指令微调和人类意图对齐后的大规模语言模型(large language model,LLM)能够应对不同场景的自然语言处理任务,影响着各个垂直领域的智能技术应用范式,包括以学术文本为主要研究对象的科技情报领域。科技情报工作的核心是从科技文献内容中挖掘和利用知识,从而实现科技文献表层信息组织到深层语义组织的跨越[1]。多年来,科技文献分析研究者运用自然语言处理、深度学习等人工智能技术,着力于解决引文推荐与功能识别[2]、论证区间自动分类[3]、科技信息抽取[4-5]等学术文本挖掘任务,取得了卓有成效的进展,研究成果被成功应用于科技情报整编与科技信息服务等业务场景[6],但也存在模型性能依赖于大规模高质量标注数据,微调模型泛化能力差等诸多问题。大模型强大的少样本学习能力,使其仅依靠少量示例便能在各类下游任务中取得优异的性能;生成式的任务处理逻辑,打破了学术文本挖掘任务之间的界限。这些能力一定程度上解决了传统深度学习模型训练难、迁移难的痛点。

  然而,大模型如何全方位嵌入科技情报领域,各类大模型在学术文本挖掘等领域任务上的专业能力如何,这些问题仍有待探究。为了探索大模型在科技情报领域的应用模式,提升大模型驱动的学术文本挖掘性能,本文设计了大模型驱动的学术文本挖掘框架,如图1所示。在该框架中,大模型应用于科技文本挖掘的策略可归纳为推理端的指令策略和调优端的微调策略两个方面。推理端是指在不调整模型参数的前提下,通过运用上下文学习、思维链推理等指令工程技术,构造自然语言指令充分挖掘大模型蕴含的知识,调动模型解决各类学术文本挖掘任务[7];调优端则是运用LoRA(low-rank adaptation)、P-tuning v2等参数高效微调策略[8],在节省计算资源的前提下,将大模型的通用能力适配为面向特定领域的专业能力。例如,在应对摘要句功能分类任务时,在推理端,可以人工编写或检索相似样本示例,构造指导模型进行逐步推理的思维链,通过将样本示例、思维链添加到指令模板中,最终组成模型上下文;在调优端,选择或构造摘要句功能分类任务基准数据集,基于对任务难度和计算成本的综合考量,选择合适的调优方法,形成面向特定功能或特定任务的专用大模型。

  

  图1 大模型驱动的学术文本挖掘框架

  在该框架的指导下,本文将大模型驱动的学术文本挖掘研究总结为以下几步:①探究当前主流大模型对于科技文献内容挖掘与知识利用的能力边界,并对比不同的模型应用策略对其学术文本挖掘能力的提升效果,总结适用于科技情报领域的推理端指令策略,从而回答大模型是否有效、怎样有效的问题;②在达到模型推理端的能力上限后,构建或改造面向下游任务的指令数据集,运用各类微调策略,探索其在不同任务上的微调效果,从而回答大模型是否要调优以及如何调优的问题;③在从推理端和调优端两个方面完成的大模型领域适配后,需要探索大模型的科技情报专业能力的形成机制,探索不同学术文本挖掘任务之间的影响与关联,形成科技情报领域下游任务自适应的大模型,从而回答大模型为何有效的问题;④总结面向不同场景和不同任务的最优策略,构建大模型驱动的学术文本挖掘引擎。

  本文拟从推理端进行初步探究:从上下文学习、思维链推理等角度,设计推理端指令策略,构建覆盖摘要句功能分类、章节功能识别、引文功能识别、科技实体抽取、科技文本推理和关键词生成6项任务的大模型学术文本挖掘专业能力评测框架,并选取7个国内外主流的指令调优模型,应用该框架评估其在不同维度的专业能力。通过对推理端指令策略和大模型学术文本挖掘专业能力的对比分析,期望能为大模型在科技情报领域的高效应用提供实践参考①。

  1 相关工作

  1.1 预训练语言模型在科技情报领域的应用

  基于高并行Transformer[9]架构的BERT(Bidirectional Encoder Representations from Transformers)[10]引发了“预训练-微调”范式的广泛应用,在科技情报领域,许多学者基于这一范式,运用不同的模型结构和微调策略,将预训练语言模型适配各类科技情报领域任务。例如,陆伟等[11]基于预训练语言模型构建了一种面向学术文本的关键词语义功能识别模型,通过将摘要和关键词字段进行向量化表示,对关键词的语义功能进行分类,实现对学术文本中研究问题与研究方法的识别;Jiang等[12]提出了一种可控关键词生成框架,通过将关键词功能添加到输入文本控制模型生成特定类型的关键词,该框架采用预训练-微调范式,对比在Paper with Code数据集上进行微调的Transformer、BART(Bidirectional and Auto-Regressive Transformers)、T5(Text to Text Transfer Transformer)等生成式模型,验证了该框架在关键词生成任务上的有效性。

相关文章: