大型语言模型突出的任务理解和指令遵循能力,使用户可以通过简单的指令交互完成复杂的信息处理任务。科技文献分析领域正在积极探索大模型的应用,但尚未形成对指令工程技术和模型能力边界的系统性研究。本文以学术文本挖掘任务为切入点,从上下文学习、思维链推理等角度设计推理端指令策略,构建了涵盖文本分类、信息抽取、文本推理和文本生成4个能力维度共6项任务的大模型学术文本挖掘专业能力评测框架,并选取了7个国内外主流的指令调优模型进行实验,对比了不同指令策略的适用范围和不同参数模型的专业能力。实验结果表明,少样本、思维链等复杂指令策略在分类任务上的应用效果并不显著,而在抽取、生成等难度较高的任务上表现良好。千亿级参数规模的大模型经过指令引导,能够取得与充分训练的深度学习模型相近的效果,但对于十亿级或百亿级规模大模型,推理端的指令策略存在明显上限。为了实现大模型向科技情报领域的深层嵌入,现阶段仍需在调优端对模型参数进行领域化适配。
图1 大模型驱动的学术文本挖掘框架 在该框架的指导下,本文将大模型驱动的学术文本挖掘研究总结为以下几步:①探究当前主流大模型对于科技文献内容挖掘与知识利用的能力边界,并对比不同的模型应用策略对其学术文本挖掘能力的提升效果,总结适用于科技情报领域的推理端指令策略,从而回答大模型是否有效、怎样有效的问题;②在达到模型推理端的能力上限后,构建或改造面向下游任务的指令数据集,运用各类微调策略,探索其在不同任务上的微调效果,从而回答大模型是否要调优以及如何调优的问题;③在从推理端和调优端两个方面完成的大模型领域适配后,需要探索大模型的科技情报专业能力的形成机制,探索不同学术文本挖掘任务之间的影响与关联,形成科技情报领域下游任务自适应的大模型,从而回答大模型为何有效的问题;④总结面向不同场景和不同任务的最优策略,构建大模型驱动的学术文本挖掘引擎。 本文拟从推理端进行初步探究:从上下文学习、思维链推理等角度,设计推理端指令策略,构建覆盖摘要句功能分类、章节功能识别、引文功能识别、科技实体抽取、科技文本推理和关键词生成6项任务的大模型学术文本挖掘专业能力评测框架,并选取7个国内外主流的指令调优模型,应用该框架评估其在不同维度的专业能力。通过对推理端指令策略和大模型学术文本挖掘专业能力的对比分析,期望能为大模型在科技情报领域的高效应用提供实践参考①。 1 相关工作 1.1 预训练语言模型在科技情报领域的应用 基于高并行Transformer[9]架构的BERT(Bidirectional Encoder Representations from Transformers)[10]引发了“预训练-微调”范式的广泛应用,在科技情报领域,许多学者基于这一范式,运用不同的模型结构和微调策略,将预训练语言模型适配各类科技情报领域任务。例如,陆伟等[11]基于预训练语言模型构建了一种面向学术文本的关键词语义功能识别模型,通过将摘要和关键词字段进行向量化表示,对关键词的语义功能进行分类,实现对学术文本中研究问题与研究方法的识别;Jiang等[12]提出了一种可控关键词生成框架,通过将关键词功能添加到输入文本控制模型生成特定类型的关键词,该框架采用预训练-微调范式,对比在Paper with Code数据集上进行微调的Transformer、BART(Bidirectional and Auto-Regressive Transformers)、T5(Text to Text Transfer Transformer)等生成式模型,验证了该框架在关键词生成任务上的有效性。