来源期刊

刊名：管理科学

主办单位：中国人民大学书报资料中心

期次：2026年02期

高维主动PU学习及其在信用评分中的应用

引用| 收藏 |打印|下载word

作　　者：

邱涌钦

作者简介：

邱涌钦，中国科学技术大学管理学院（安徽合肥 230026）；方匡南（通讯作者）（1983—），男（汉族），浙江台州人，厦门大学经济学院，教授，厦门大学信用大数据与智能风控研究中心博士生导师，研究方向：统计机器学习、金融科技，E-mail：xmufkn@xmu.edu.cn；张庆昭，厦门大学经济学院，厦门大学信用大数据与智能风控研究中心（福建厦门 361000）；余乐安，四川大学商学院（四川成都 610065）。

原文出处：

中国管理科学

内容提要：

在分类问题中，常常会遇到只能获得正标签和无标签样本的情况，即PU（positive and unlabeled）数据。针对此类PU数据建模，现有的研究大多需要类别先验（class prior），并在样本量充足的情况下才能取得较好的效果，当数据呈现“高维小样本”特点时，模型估计效果往往不佳。基于此，本文提出了高维主动PU学习方法，通过对经典的A-optimality准则进行调整，不仅能够在高维情况下有效挑选新样本，提升模型估计效果，同时，显著减少了样本挑选的时间成本。此外，在挑选样本并标记的过程中，本文提出的方法无需初值即可对类别先验进行参数估计，减少先验信息错误带来的偏差。通过模拟实验发现，本文所提出的方法在变量选择、系数估计和分类预测上的效果均优于对比方法。最后，将本文提出的模型应用到实际的消费金融贷信用评分数据中，实证结果表明，利用本文提出的方法可以显著提高模型的预测效果。

期刊代号：C3

分类名称：管理科学

复印期号：2026 年 02 期

关键词：

主动学习 PU学习高维A-optimality 信用评分　　active learning PU learning high-dimensional A-optimality credit scoring

字号：大中小

　　1 引言

　　分类问题（classification）一直是统计和机器学习领域关注的重点之一，常用的方法有决策树、Logistic回归、判别分析等。然而，这些模型通常适用于标签完整的数据，但在实际问题中经常只能获得正标签样本和无标签样本。例如，在信用评分中，对于成熟的消费贷产品，银行等金融机构已经累积了大量的历史客户数据，因此，可以根据客户过往的违约和未违约行为进行标记并使用传统分类方法建模[1-5]。然而，对于刚上线的新产品，数据库中可能仅有已违约的客户和正在还款的客户信息。对于已违约的客户，可以作为正样本处理，但对于正在还款的客户，在还款周期结束前都无法得知他们是否会出现违约行为，即可以看成无标签样本。像这种仅有正标签和无标签样本的数据又称为PU（positive and unlabeled）数据。如果错误地将无标签样本视作负样本并使用传统监督模型进行建模，则模型的估计会产生严重的偏差[6]。

　　针对PU数据分析中存在的问题，很多学者进行了深入的研究。Lancaster和Imbens[7]将Logistic模型的似然函数进行修改，使其能够适用于PU数据。但该方法中的似然函数形式较为复杂，缺少一种简单易行的计算方法。Ward等[6]在此基础上提出了一个基于EM算法的方法来迭代求解PU数据似然函数最大化问题，该方法求解更加方便，估计也更加稳健。Song和Raskutti[8]进一步将上述方法拓展到了高维的情况，并对求解方式进行了改进。除此以外，其他学者也从不同角度设计了针对PU数据的分析方法[9-12]。

　　然而，PU数据在实际建模中仍存在两个问题：一方面，由于负标签信息的缺失，PU数据往往需要大量的正标签样本弥补信息的损失，当正标签样本较少并且数据的维度较高时，模型估计效果往往不佳。当标签信息量不足时，虽然可以通过整合分析、迁移学习[13-16]等方法融合其他数据源信息来提升模型估计效果，但当其他数据源难以获取（如隐私保护、商业机密等原因的限制），或者数据源之间相似性较小时，提升效果可能有限[17]。此时，最直接有效的方法就是对无标签样本中的正类样本进行标注，通过扩充正标签样本的数量增加标签信息量，但对样本进行标记可能需要花费大量的成本和时间。例如，在信用评分中，专家可能需要分析客户最近的消费情况、工作情况、过往还款记录，并结合自身的知识和经验来判定其是否会出现违约行为。在此过程中，不仅调查分析资料需要花费大量的时间，专家的数量和精力也存在限制。随着互联网金融的发展，每时每刻都有成千上万的贷款交易发生，而在实践中无法对这些海量的无标签样本及时标记。另一方面，大多数方法在使用时需要类别先验，这在实际中有时难以估计[18]。若给定的先验与真值差距较大，则会造成较大的估计偏差。Divino等[19]使用了蒙特卡罗（Monte Carlo）模拟的方法对先验进行估计，但是，该方法需要假设参数服从简单的分布；Bekker和Davis[20]使用决策树对先验进行估计，但要获得较好的效果，需要较大的样本量；Terada等[18]则设计了一种算法可以避免使用先验，虽然取得了较好的效果，但与使用真实先验的算法相比仍存在一定的差距。

　　主动学习（active learning）方法为上述问题提供了可能的解决途径。在样本中往往存在一批“关键数据”，这些数据的信息含量丰富，将其标记后可以加速训练过程，提升预测效果，而主动学习的目的便是找到这些“关键数据”，进而有效提高模型性能。目前，有许多文献对主动学习进行了研究。Deng等[21]使用随机逼近和D-optimality准则相结合的方法来挑选新样本，并将其运用到洗钱行为分类之中；Vahdat等[22]和Hsu等[23]在将主动学习运用到Logistic模型的同时，考虑了变量选择以提升模型的预测精度；Li等[24]进一步考虑了多分类数据下的主动学习问题。然而，目前关于PU数据下的主动学习文献较少，虽然Perini等[25]发现，使用主动学习可以有效估计PU模型中的类别先验，但该方法主要用于类别先验的估计，没有同时考虑模型精度的提升，并且需要一个较好的模型作为初值，在高维数据下也不适用。

　　目前尚未有文献针对大数据时代高维PU数据的主动学习问题进行研究，主要的挑战有：首先，随着大数据的发展，可获取的变量越来越多，而过多的变量进入模型会产生维度诅咒问题，尤其是当初始正标签样本量小于变量个数时，许多基于信息矩阵的挑选准则可能会失效（例如D-optimality挑选准则，此时因为信息矩阵不满秩，行列式均为0，无法用于选择样本）。基于决策边界（decision boundary）的挑选准则虽然无此困扰，但挑选出样本的有效性较差[21]。Vahdat等[22]以及Yin和Du[26]虽然针对高维主动学习进行了研究，但前者适用于回归问题，后者则是采用了降维的方法，会导致变量的可解释性下降。因此，针对高维、正标签样本稀缺的PU数据，需要研究新的挑选准则。其次，即使正标签样本量大于变量个数，当维度较大时，基于信息矩阵的挑选准则仍会产生巨大的计算负担，使得新样本的挑选时间过长，因此，需要设计新的挑选方法降低时间成本。最后，在实际应用中，有时无法获得一个较好的初值，如新上线的信贷产品可能会遇到冷启动的问题，所以，需要研究新的方法对类别先验进行估计。

　　基于上述问题，本文提出了高维主动PU学习方法。主要创新点有：（1）将主动学习方法引入到PU学习，既可以减少直接使用传统监督学习方法带来的模型估计偏差，又能够有效弥补PU模型在标记成本较高、正标签样本不足时估计效果较差的问题，提高模型的预测能力。（2）基于A-optimality准则提出了高维A-optimality准则，克服了传统挑选准则在初始正标签样本量小于变量个数时无法直接使用的困难，能够有效地从高维PU数据的无标签样本中寻找信息量较大的样本，并大大减少了样本挑选的时间成本。此外，该方法也可与其他分类方法相结合。（3）提出了一种简单快捷的类别先验估计方法，无需初值即可对类别先验进行估计，减少先验信息错误带来的模型估计偏差。

共10条结果上一页12 3 4 5 下一页全部展开

基于碳排放成本内部化的公铁联运定价策略研...

王辉

管理科...2026年第01期
考虑信息处理投入的随机资源需求反应性项目...

崔晓

管理科...2026年第01期
数智化管理决策中的“新颖关系发现”问题：...

卫强

管理科...2026年第03期
综合集成研究的历史发展

顾基发

管理科...2026年第03期
数据系统工程：数据资源与数据产业

杨善林

管理科...2026年第03期

来源期刊

高维主动PU学习及其在信用评分中的应用

相关文章：