中图分类号:F204;G301 文献标识码:A 文章编号:1000-2995(2021)01-013-0020 0 引言 当前,新一轮世界科技革命和产业变革正在孕育兴起,深刻认识并准确把握科技发展前沿,对于创新战略前瞻部署、创新资源优化配置和全球科技竞争力提升至关重要。2020年9月11日,习近平总书记在北京主持召开科学家座谈会并发表重要讲话,讲话中指出要坚持“四个面向”,其中第一个就是要面向世界科技前沿。研究前沿代表着科学研究中最具潜力和前瞻性的研究方向,被认为是科技创新的“种子”,是科学共同体、企业和政府共同关注的焦点。而随着科学技术发展的高度融合,技术创新过程的日益缩短,迫切需要尽早识别全球科技创新中的研究前沿,加强全球科技创新趋势分析和前瞻谋划。因此,如何快速、准确地识别科技创新过程中的研究前沿成为学术界关注的焦点。 学者们就如何探寻、发现和识别研究前沿开展了大量的研究工作。一些学者利用文献计量方法来识别研究前沿[1,2],如引文分析、知识单元分析、时间序列分析、多指标分析、多源数据分析等方法[3]。其中,引文分析方法是识别研究前沿最常用和最重要的方法之一,包括共被引、文献耦合等。多项研究表明,文献耦合分析比共被引分析在识别研究前沿方面表现出更好的效果[4-6]。文献耦合的概念最早由Kessler[7]提出,即如果两篇文献引用了相同的参考文献,则称它们具有耦合关系。一些学者根据文献间耦合关系强度对文献进行聚类,即从引文的角度揭示文献间的主题相似性,对相似主题进行聚类,并通过对聚类主题的时间演进分析来识别研究前沿[8-11]。 采用文献耦合方法识别研究前沿大多是基于高被引论文[9,12]。一般认为高被引论文可能具有更高的研究价值、更大的影响力[13,14],被视为识别研究前沿的重要数据来源。正如Price[15]最早提出的研究前沿的概念:将近期发表且被引频次较高的文献定义为科学研究前沿。然而论文被引量的积累需要一定的时间,因此最新发表的论文且未来一段时间内将会被高度引用的论文无法包含在高被引核心文献集中,进而导致以高被引论文为数据源进行文献耦合分析的研究前沿识别方法无法识别最新的研究前沿。因此,如何识别和预测潜在高被引论文(也就是新近发表的论文,且未来一段时间内将会被高度引用的论文)成为学者们研究的焦点。近年来,机器学习方法由于可处理大规模数据、易于实现、实时预测等优势,在预测论文未来被引量的问题上得到广泛的应用。在先前的机器学习方法研究中,预测论文被引量问题常被视为回归问题[16,17]。但由于论文引用具有明显的长尾效应,因此预测论文被引量并不适合采用回归的方法[18]。因此,本文将预测论文被引量问题视为分类问题,利用机器学习的分类算法预测论文被引量。利用机器学习的分类算法可以使得预测粒度变粗,从而可以使预测结果更加符合真实分布的数据,训练出的机器学习模型也具有更好的泛化能力[19]。所以,本文将机器学习方法引入基于文献耦合关系的研究前沿识别之中,在一定程度上克服了以高被引论文为数据源进行文献耦合分析的研究前沿识别方法的时滞性缺陷。 综上,本文提出一种基于机器学习的研究前沿识别方法:即构建机器学习模型来识别潜在高被引论文,以潜在高被引论文为数据源构建文献耦合关系,并通过文献聚类来识别研究前沿主题,并通过主题间的对比来识别和评价研究前沿。 1 研究方法 英文术语“Research front”和“Research frontier”均被译为研究前沿,但前者本质上是情报学的一个概念,大多利用文献计量学方法进行探测,属于先验评价;后者是经领域专家判定或前沿主题下包含的文献在未来一段时间内被高度引用后确定的研究前沿,属于真正意义上的前沿研究[20],属于后验评价。利用文献计量等方法早期识别最新的真正意义上的研究前沿,一直是研究人员追求的目标。虽然已有文献耦合方法识别研究前沿的研究大多是基于高被引论文,这在一定程度上缩小了Research front与Research frontier的差距,但高被引论文的形成需要时间的积累,现有引文分析法仍然无法将潜在高被引论文纳入到识别研究前沿的高被引论文数据集中。因此,本文将利用机器学习方法预测论文未来一段时间内的被引量,进而对潜在的高被引论文进行早期识别,这将解决利用高被引论文作为核心数据集来识别前沿的时滞性问题。 研究前沿一般被分为:新兴前沿、增长前沿、稳定前沿、收缩前沿和退出前沿[21]。而大量研究表明,新兴前沿和增长前沿是真正意义上的研究前沿[22]。因此,本文将通过对识别出来的不同时间段的研究前沿主题进行对比和评价来确定新兴前沿和增长前沿,进而识别出真正意义上的研究前沿。 综上,本文提出了一个基于机器学习的研究前沿识别模型,如图1所示。具体思路是:第一,以Web of Science(WoS)为数据源,下载历史高被引论文数据及其对应的参考文献数据;第二,在学者们关于高被引论文影响因素研究的基础上,构建高被引论文识别指标体系,根据指标定义及公式计算相应数值,并划分机器学习模型的训练集和测试集数据;第三,构建支持向量机、随机森林、极端梯度提升模型,利用训练集和测试集数据,不断调整模型参数,使模型达到最优;第四,从WoS中下载新近发表的论文数据,验证各模型的泛化能力,然后选择泛化能力最好的模型对最新公开论文的未来被引量进行预测,识别出潜在高被引论文,并将潜在高被引论文纳入高被引论文核心文档集;第五,以高被引论文核心文档集为数据源,利用聚类分析法识别出研究前沿主题,并对研究前沿主题进行对比和评价分析,进而识别出研究前沿。