基于大模型的研究主题所属学科分类方法研究

作  者:

作者简介:
霍朝光,男,1990年生,中国人民大学信息资源管理学院副教授,中国人民大学数字人文研究院,北京 100872;王晓玉(通讯作者),女,1997年生,中国人民大学信息资源管理学院硕士研究生,北京 100872;燕鹏,男,1991年生,中国人民大学信息资源管理学院硕士研究生,北京 100872。

原文出处:

内容提要:

[目的/意义]研究主题所属学科分类是学科交叉测度以及学科交叉主题识别等学科交叉以及跨学科研究的基础,只有确定每个研究主题所属的学科门类,才能判断其是否为学科交叉点。[方法/过程]构建基于大模型的研究主题学科分类框架,在Llama3-8B-Instruct、Qwen2.5-7B-Instruct和DeepSeek-R1-Distill-Qwen-7B三个基座模型基础上,采用“领域自适应预训练+监督微调”双阶段优化策略,利用116192篇学术论文进行领域预训练,以增强模型对科学文献的语义理解能力,以作者自标注关键词表征研究主题,通过人工标注的126919条“研究主题—学科标签”数据集进行监督微调,以优化模型对研究主题的学科分类能力。[结果/结论]虽然大语言模型具有零样本学科分类能力,但是仅仅靠设计Prompt使用大模型的精确率和F1值均低于50%,难以满足实际需要;而构建的研究主题所属学科分类框架精确率达93.61%、F1值达83.09%,显著提升了研究主题所属学科分类效果。


期刊代号:L1
分类名称:情报资料工作
复印期号:2026 年 02 期

字号:

  DOI:10.12154/j.qbzlgz.2026.02.008

  1 引言

  学科交叉以及跨学科研究是当前重要的科学创新模式,开展学科交叉主题识别以及学科交叉测度等成为科技情报研究重要命题之一[1]。识别学科交叉研究主题不仅关乎对学科发展前沿趋势的精准把握[2],更对推动创新研究、促进多学科协同发展具有深远意义[3]。但是在进行学科交叉主题识别和测度之前,首先需要解决的问题是对研究主题所属学科进行精准划分。

  研究主题作为对学科领域研究内容的高度凝练,是构成学科知识体系的核心单元[4],在表征学科发展脉络和知识创新过程方面发挥着重要作用[5]。围绕研究主题开展学科分类,有助于厘清学科边界、识别学科交叉特征,是开展学科交叉测度与相关分析的重要前提[6],同时能够提升跨学科研究的组织效率与协同水平[7]。然而,目前的研究多聚焦于宏观层面的学科分类,如基于期刊的学科分类、基于研究机构的学科分类以及基于文献的学科分类等[8],鲜有学者从研究主题视角探索学科分类方法。究其原因,一方面,研究主题数据规模庞大且跨学科特征显著,传统基于规则或统计的方法难以有效捕捉其复杂的语义关联;另一方面,现有的分类模型在专业领域知识理解和多标签判别能力上存在局限,难以适应交叉学科主题快速变化的动态演化特性[1]。

  近年来,大语言模型的突破性进展为研究主题的智能化学科划分提供了新的技术路径,通用大语言模型(如GPT-4、Llama系列)在文献元数据分类任务中展现出一定的零样本学习能力[9]。利用科学文献领域数据对大模型进行监督训练后,其在图书和文献学科分类方面取得一定效果[10]。然而,大语言模型在研究主题学科分类问题上仍面临显著挑战,其一,目前文献分类主要采用基于期刊的学科分类方式,而已有研究指出期刊级分类粒度较粗,与论文实际研究内容之间可能存在较大偏差[11],从而一定程度上限制了模型的分类能力;其二,文献和图书通常采用单一学科标签进行标注,而研究主题往往具有多学科交叉的属性,单一标签的方式难以全面、准确地反映研究主题的跨学科特征。

  针对上述挑战,本研究提出一种基于大模型的研究主题学科分类框架,强调采用领域自适应预训练和监督微调的双阶段优化方法,在Llama3-8B-Instruct、Qwen2.5-7B-Instruct、DeepSeek-R1-Distill-Qwen-7B等模型基座上,融入学术文献语料,以增强其在中文科学文献方面的语义理解能力,进而通过多任务监督微调策略,利用人工标注的126919条数据对模型进行优化,提升模型在研究主题多分类任务上的细粒度性能,探索不同模型架构和训练策略对研究主题学科分类性能的影响。

  2 相关工作

  本文从学科分类和研究主题刻画两个方面系统梳理现有研究进展,前者为研究主题的学科划分提供理论框架与方法支撑,后者则是实现精准分类的核心前提。

  2.1 学科分类

  学科分类作为知识组织体系的核心构成,强调通过系统性框架界定学科边界与关联,支撑学术资源管理、科研评价与跨学科研究分析[12]。在学科交叉融合趋势下,精准的学科分类不仅是知识高效管理的基础,更是量化跨学科研究特征、识别交叉领域的前提[1]。学科分类对象涵盖了文献、作者、研究机构以及研究主题等多个层面[8],但无论何种对象,确定其基础学科归属均是学科交叉分析的首要步骤。

  当前主流的学科分类体系可归纳为两类:一是以《中国图书馆分类法》和《中国社会科学引文索引分类体系》为代表的层级化分类系统,采用树状结构对学科进行逐级细分,适用于图书馆资源管理与文献检索;二是以ECOOM、STS、UCSD等分类系统为代表的动态分类框架,通过数据驱动的算法动态捕捉学科间的交叉关联,更契合跨学科研究的动态演化特性。然而,现有体系多聚焦文献、机构等宏观对象,对研究主题这一微观知识单元的学科属性刻画明显不足。

  研究主题的学科分类与文献学科分类在方法上存在相通性,这使得文献分类的技术在一定程度上能够迁移应用于研究主题的学科分类工作。目前,文献分类方法主要分为基于期刊的分类和基于文献本身的分类两大类别[12]。前者通过文献发表期刊的学科标签判定文献归属,这种方法操作简便,但准确率受期刊学科交叉性影响较大。例如,综合性期刊收录的论文可能涉及多个学科,导致分类偏差,该问题已引起学界广泛关注[13]。后者主要包括基于文献内容的分类和基于引文的分类两种路径[12]。基于文献内容的分类方法着重于对文献文本内容进行深入理解与挖掘,通过提取文本中的关键特征,借助机器学习等先进技术手段来学习分类特征,从而实现文献学科分类的自动化[14];基于引文分析的分类方法则是依据论文所引用文献的学科属性来推断该论文的学科类别。但基于引文分析的分类方法存在一定局限性,其实施的前提是需要预先知晓引文的学科信息,这在实际操作中往往存在困难,因此该方法多作为辅助手段使用[14]。

  基于文献内容的学科分类研究主要采用K最近邻(KNN)、朴素贝叶斯(NB)、支持向量机(SVM)、随机森林等传统机器学习方法,以及卷积神经网络(CNN)、长短期记忆网络(LSTM)等深度学习算法。随着预训练语言模型的兴起,BERT等模型凭借双向语义表征能力显著提升了分类精度[15],部分学者将大语言模型应用于科学文献分类。例如,胡忠义等[16]基于大语言模型构建了生成式文献层次分类标引框架,经过监督微调后,Qwen1.5-14B-Chat模型在一级类目上的分类准确率可达98%,在五级类目上的准确率仍达到约80%,显著优于传统判别式模型;胡蝶等[17]利用Qwen-7B、Llama2-7B在21分类的英文人文社科领域论文分类中实现了89.22%的F1值。尽管大语言模型在论文分类方面取得了一定进展,但针对研究主题的细粒度学科分类仍待进一步探索与研究。

相关文章: