1 引言 分类问题(classification)一直是统计和机器学习领域关注的重点之一,常用的方法有决策树、Logistic回归、判别分析等。然而,这些模型通常适用于标签完整的数据,但在实际问题中经常只能获得正标签样本和无标签样本。例如,在信用评分中,对于成熟的消费贷产品,银行等金融机构已经累积了大量的历史客户数据,因此,可以根据客户过往的违约和未违约行为进行标记并使用传统分类方法建模[1-5]。然而,对于刚上线的新产品,数据库中可能仅有已违约的客户和正在还款的客户信息。对于已违约的客户,可以作为正样本处理,但对于正在还款的客户,在还款周期结束前都无法得知他们是否会出现违约行为,即可以看成无标签样本。像这种仅有正标签和无标签样本的数据又称为PU(positive and unlabeled)数据。如果错误地将无标签样本视作负样本并使用传统监督模型进行建模,则模型的估计会产生严重的偏差[6]。 针对PU数据分析中存在的问题,很多学者进行了深入的研究。Lancaster和Imbens[7]将Logistic模型的似然函数进行修改,使其能够适用于PU数据。但该方法中的似然函数形式较为复杂,缺少一种简单易行的计算方法。Ward等[6]在此基础上提出了一个基于EM算法的方法来迭代求解PU数据似然函数最大化问题,该方法求解更加方便,估计也更加稳健。Song和Raskutti[8]进一步将上述方法拓展到了高维的情况,并对求解方式进行了改进。除此以外,其他学者也从不同角度设计了针对PU数据的分析方法[9-12]。 然而,PU数据在实际建模中仍存在两个问题:一方面,由于负标签信息的缺失,PU数据往往需要大量的正标签样本弥补信息的损失,当正标签样本较少并且数据的维度较高时,模型估计效果往往不佳。当标签信息量不足时,虽然可以通过整合分析、迁移学习[13-16]等方法融合其他数据源信息来提升模型估计效果,但当其他数据源难以获取(如隐私保护、商业机密等原因的限制),或者数据源之间相似性较小时,提升效果可能有限[17]。此时,最直接有效的方法就是对无标签样本中的正类样本进行标注,通过扩充正标签样本的数量增加标签信息量,但对样本进行标记可能需要花费大量的成本和时间。例如,在信用评分中,专家可能需要分析客户最近的消费情况、工作情况、过往还款记录,并结合自身的知识和经验来判定其是否会出现违约行为。在此过程中,不仅调查分析资料需要花费大量的时间,专家的数量和精力也存在限制。随着互联网金融的发展,每时每刻都有成千上万的贷款交易发生,而在实践中无法对这些海量的无标签样本及时标记。另一方面,大多数方法在使用时需要类别先验,这在实际中有时难以估计[18]。若给定的先验与真值差距较大,则会造成较大的估计偏差。Divino等[19]使用了蒙特卡罗(Monte Carlo)模拟的方法对先验进行估计,但是,该方法需要假设参数服从简单的分布;Bekker和Davis[20]使用决策树对先验进行估计,但要获得较好的效果,需要较大的样本量;Terada等[18]则设计了一种算法可以避免使用先验,虽然取得了较好的效果,但与使用真实先验的算法相比仍存在一定的差距。 主动学习(active learning)方法为上述问题提供了可能的解决途径。在样本中往往存在一批“关键数据”,这些数据的信息含量丰富,将其标记后可以加速训练过程,提升预测效果,而主动学习的目的便是找到这些“关键数据”,进而有效提高模型性能。目前,有许多文献对主动学习进行了研究。Deng等[21]使用随机逼近和D-optimality准则相结合的方法来挑选新样本,并将其运用到洗钱行为分类之中;Vahdat等[22]和Hsu等[23]在将主动学习运用到Logistic模型的同时,考虑了变量选择以提升模型的预测精度;Li等[24]进一步考虑了多分类数据下的主动学习问题。然而,目前关于PU数据下的主动学习文献较少,虽然Perini等[25]发现,使用主动学习可以有效估计PU模型中的类别先验,但该方法主要用于类别先验的估计,没有同时考虑模型精度的提升,并且需要一个较好的模型作为初值,在高维数据下也不适用。 目前尚未有文献针对大数据时代高维PU数据的主动学习问题进行研究,主要的挑战有:首先,随着大数据的发展,可获取的变量越来越多,而过多的变量进入模型会产生维度诅咒问题,尤其是当初始正标签样本量小于变量个数时,许多基于信息矩阵的挑选准则可能会失效(例如D-optimality挑选准则,此时因为信息矩阵不满秩,行列式均为0,无法用于选择样本)。基于决策边界(decision boundary)的挑选准则虽然无此困扰,但挑选出样本的有效性较差[21]。Vahdat等[22]以及Yin和Du[26]虽然针对高维主动学习进行了研究,但前者适用于回归问题,后者则是采用了降维的方法,会导致变量的可解释性下降。因此,针对高维、正标签样本稀缺的PU数据,需要研究新的挑选准则。其次,即使正标签样本量大于变量个数,当维度较大时,基于信息矩阵的挑选准则仍会产生巨大的计算负担,使得新样本的挑选时间过长,因此,需要设计新的挑选方法降低时间成本。最后,在实际应用中,有时无法获得一个较好的初值,如新上线的信贷产品可能会遇到冷启动的问题,所以,需要研究新的方法对类别先验进行估计。 基于上述问题,本文提出了高维主动PU学习方法。主要创新点有:(1)将主动学习方法引入到PU学习,既可以减少直接使用传统监督学习方法带来的模型估计偏差,又能够有效弥补PU模型在标记成本较高、正标签样本不足时估计效果较差的问题,提高模型的预测能力。(2)基于A-optimality准则提出了高维A-optimality准则,克服了传统挑选准则在初始正标签样本量小于变量个数时无法直接使用的困难,能够有效地从高维PU数据的无标签样本中寻找信息量较大的样本,并大大减少了样本挑选的时间成本。此外,该方法也可与其他分类方法相结合。(3)提出了一种简单快捷的类别先验估计方法,无需初值即可对类别先验进行估计,减少先验信息错误带来的模型估计偏差。