新兴技术最早由沃顿商学院提出并定义为基于科学基础的可能建立新行业或改变旧行业的创新[1],Rotolo指出其具有新颖性、相对较快的增长、连贯性、突出的影响和不确定性[2]五大特性。新兴技术代表了最新的科学发现和技术突破,具有引领行业创新的潜力,及早识别和评估这些技术有助于提前布局和应对未来的技术变革。另外,随着基础学科新兴技术的涌现以及政府对科技创新活动的政策支持,高效准确地识别新兴技术也成为国家和企业进行科技创新的关键环节。 为了有效识别和追踪新兴技术的发展趋势,常用的识别未来新兴技术方法包括专家经验法、文献计量、网络分析、文本挖掘等方法。但相关方法大多是对过去或当前状况的衡量和评估,而非面向未来重要性预测的研究[3]。此外,大多数研究采用单一数据源进行技术识别,研究视野具有一定局限性,融合多源数据识别新兴技术的方法越来越受到关注。通过融合学术论文、专利和新闻报道等数据,可以更全面、准确地捕捉新兴技术的发展态势和市场潜力[4]。 因此,为克服现有研究在前瞻性预测上的不足以及单一数据源的限制,本文提出一种基于潜在影响力预测和多源信息融合的新兴技术识别方法。首先基于深度学习模型预测并识别出在未来具有高影响力的研究,其次利用主题提取和网络分析识别新兴技术,最后验证本文方法有效性以及分析公众诉求。另外,由于碳中和是我国应对环境资源制约、实现中华民族永续发展的重大战略决策[5],为抓住科技革命和产业革命的先机,我国必须加强绿色科技创新,所以本文选取碳中和领域作为案例研究对象。 1 相关研究 1.1 技术识别方法 相较于文献计量、网络分析等其他定量技术识别方法,利用文本挖掘识别新兴技术的方法因其识别的高效率和高准确率,受到广泛应用,主要包括SAO结构(Subject-Action-Object)抽取、主题建模和聚类分类等方法。目前使用最为广泛的主题模型是Blei等于2010年提出的潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)[6],Chen等基于LDA主题模型挖掘追踪中国3D打印技术的发展[7]。在利用机器学习模型识别技术的研究中,已经从传统的机器学习模型逐步向深度学习模型转变。胡泽文等基于LSTM、BP神经网络等模型对区块链技术进行主题分类[8],赵雪峰等组合LSTM、Word2Vec及BERT模型将技术识别精准度提高至88.1%[9]。 然而,上述方法大多属于对当前或过往数据的回溯性分析,较少涉及面向未来的预测性研究。即便在预测性研究中,仍存在两个主要问题:一是仅针对单一时间段进行预测,忽略了技术发展的生命周期。例如,冯立杰等利用Bi-LSTM模型训练2017—2022年间专利指标与技术影响力之间的关系,以预测2026年的候选颠覆性技术[10]。二是研究采用的模型存在不足,例如Li等采用传统的机器学习算法从学术论文中发现潜在的突破性研究[11],但是传统的机器学习模型存在准确率低等问题,深度学习模型则在处理复杂数据和发现潜在模式方面表现出显著优势。 鉴于上述局限性,本文提出一种面向未来不同时期的潜在影响力预测方法,将技术识别问题转化为基于深度学习模型的预测问题,根据相关指标预测研究在未来不同时间段的影响力,即采用深度学习模型预测研究在未来3年内、5年内、10年内的影响力高低类别。 1.2 技术识别数据源 随着文本挖掘技术的发展,技术识别数据源已经由“调研数据”向“结构化著录信息”到向“短文本”过渡发展[12],除去技术预见工作中依赖的论文和专利数据,行业报告、网络新闻、社交媒体等数据也受到学界关注。另外,新闻数据中包含了大量公众的情感态度和反应,这些情感态度反映了社会各界对新兴技术的认可度和接受度[13]。通过情感分析技术,可以挖掘出公众对某项技术正面、负面或中立的看法,揭示技术的市场潜力和社会影响。 为了克服单一数据带来的系统偏差,多源数据融合逐渐成为技术识别的研究趋势,有助于研究人员在综合考虑多方情况下识别新兴技术。如谭晓等构建了科学-技术-市场模型识别颠覆性技术[14],苗红等基于论文、专利、科技报告等数据源识别前沿技术[15]。但多源数据存在格式不统一、层次多样等问题,对于不同类型数据融合难度较大,本文提出一种多源数据融合研究思路即利用论文和专利数据识别新兴技术,利用新闻数据对识别结果加以验证。 2 研究方法 本文基于论文、专利和新闻数据,结合深度学习模型与主题建模、网络分析和情感分析等方法,识别并验证未来新兴技术,如图1所示。首先,从WOS和incoPat下载相关领域的论文和专利数据,去除无关及缺漏数据,利用NLTK工具对论文和专利数据的标题和摘要进行预处理;从科学性、关联性和技术性三方面构建影响力评估指标体系,训练并评估深度学习模型Bi-LSTM,识别出在未来短期、中期、长期具有高影响力的研究。其次,利用主题模型分别对潜在高影响力的论文和专利研究提取主题和关键词,再对论文主题与专利主题进行K-means聚类合并,用合并后的“科学-技术”主题和关键词字段构建主题演化网络以及主题共现网络,从技术的新颖性、连贯性、影响性出发,通过主题随时间演化关系以及主题的共现强度识别出新兴技术。最后,从China Daily网站检索相关领域新闻,提取新闻话题并与新兴技术识别结果进行对比;收集新兴技术识别结果相关新闻数据,通过情感分析和关键词提取挖掘公众诉求。