随着大数据时代的到来,机器学习成为人工智能领域的研究趋势。本文以识别加油卡套现审计模型为例,探讨模型数据的收集、整理,以及信息熵、二分类等算法的应用,以期为人工智能审计模型建设提供借鉴和参考。 一、人工智能审计模型建设思路 机器学习的很多应用场景与审计工作有相似性。例如,机器学习能够将邮件分类为正常邮件和垃圾邮件,将肿瘤分为良性肿瘤和恶性肿瘤,以解决此类二分类问题。审计工作很大程度上是将被审计业务分为正常业务和舞弊业务两类,这为机器学习提供了相似的应用场景。 机器对数据源的学习不依赖或较少依赖业务人员的经验,有利于增强审计结果的客观性。审计人员将正常、非正常及高关联特征数据做成训练集,通过计算机挖掘出舞弊业务的数据规律。这些规律既可用于检查、发现过去隐藏的舞弊业务,又可以用于实时监督正在发生的舞弊业务,整个过程类似归纳总结工作。 与传统审计模型相比,基于机器学习的人工智能审计模型的工作思路具有较大不同,如图1所示。传统审计模型由审计人员根据典型审计案例,总结舞弊行为规律,将规律转为程序运行规则,形成审计模型;基于机器学习的人工智能审计模型虽然也是由人提供存在逻辑关系的数据,但是依靠计算机试算不同函数组合的参数,发掘数据中隐含的规则,形成审计模型,计算机在一定程度上代替人进行归纳总结。基于机器学习的人工智能审计模型建设大致可分为两个模块:一是由审计人员根据经验和案例,提供存在逻辑关系的数据;二是通过机器学习发掘正常与非正常业务的分类规律。这种建设思路既是对审计经验的继承,也是机器学习的跨行业应用。下文将以识别加油卡套现审计模型的建设过程为例,介绍基于机器学习的人工智能审计模型建设思路。 二、识别加油卡套现审计模型建设思路 加油卡是为汽车加油的储值卡,有极高的便利性。各石油公司为了锁定客户,扩大市场占有率,经常针对加油卡开展不同种类的优惠活动,比如充1000元送200元等。这种优惠本意是让利给用户,但是在现实操作中,部分员工为了套取优惠或帮助非用油单位虚开增值税发票用于抵税,收取现金后私自截流,违法使用套现卡进行加油,这种套现套票行为,损害了石油公司和国家的利益。 加油卡套现一般存在以下一个或几个特征:一是只在一个加油站点加油,不符合车辆的大范围移动特征;二是油品结构混乱,同一张卡加多品种油;三是需求结构混乱,加油量变化很大;四是高频访问某站点且访问间隔较稳定,每次间隔时间不足以消耗上次加油量;五是与特定的加油卡高度关联,多张套现卡在同一人手中时,会呈现加油频次、地点高度关联;六是刷卡频率过高(运输企业除外)。
在审计实践中,套现行为还存在“升级”现象。套现人相互勾结,快递交换加油卡套现,以规避数据特征,但往往最多规避一到两项。因此,套现综合特征与正常加油一定存在差异。这种差异可用信息熵来量化,而套现行为与信息熵的逻辑关系可用机器学习计算。基于此,本文尝试开发了防范加油卡套现审计模型,具体实施步骤如下。 (一)加油卡特征数据提取 加油卡记录主要包括加油卡号、时间、油品、交易发生的加油站、交易升数等字段。本案例中,根据加油卡记录整理出某石油公司半年内的28万张加油卡数据。随后,统计新建套现特征字段二维表。字段包括加油卡号、平均加油升数、最高加油升数、最低加油升数、去过的加油站数量、日均加油次升数、日均加油次数。 (二)特征数据熵值计算生成二维表 根据特征字段二维表计算每张加油卡特征字段值与平均值偏离的混乱程度(信息熵),得到站点熵值(e1)、油品熵值(e2)、单次加油升数区间熵值(e3)、站点区间熵值(e4)、关联卡熵值(e5)、日均加油次数熵值(e6),生成熵值表。 以单次加油升数区间熵值、油品熵值为例: 单次加油升数区间熵值。取加油卡近半年内的全部加油升数记录[10升,15升,30升,40升,50升]作为不同的区间段,分别统计每张加油卡单次加油记录落在各个区间内的次数,得到以“加油卡号”和“单次加油升数区间”为关键值,该区间消费次数占该卡全部消费次数的比例“区间消费次数占比”为计算值的统计数据。 油品熵值。统计加油卡近半年内对于不同油品的消费次数,得到以“加油卡号”和“油品”为关键值,不同油品消费次数占该卡全部消费次数的比例——“油品消费次数占比”为计算值的统计数据。 根据信息熵公式计算各字段熵值。计算结果输出为加油卡信息熵统计表,简化后表格如表1所示。每张加油卡为一条记录,每条记录6列熵值字段。增加一个字段class作为分类标签,正常加油卡class值为0,套现加油卡class值为1。 (三)机器学习确定熵值影响加油卡套现的权重 获得每张加油卡6个特征字段的熵值后,需要用机器学习的方法训练一个分类器,根据每个字段的熵值将加油卡分为套现卡和正常卡两类。