K-means聚类在审计疑点发现中的应用探索

收藏 |打印|下载word

作者：

常远/康娜娜

作者简介：

常远，康娜娜，上海国家会计学院

原文出处：

中国注册会计师

内容提要：

期刊代号：V3

分类名称：审计文摘

复印期号：2018 年 08 期

关键词：

字号：大中小

现行的风险导向审计模式下，审计人员以合理的职业怀疑为基础，充分考虑被审计单位的经济环境、治理结构、管理层诚信状况等因素，对审计风险进行系统而充分的识别与评估，制定并执行与风险相适应的审计计划，实施审计程序，搜集审计证据。然而，随着信息化的普及与深入，审计人员常常需要面对大量的数据，按照传统审计抽样的要求，需要从总体中选取大量样本，相当耗费精力，也未必一定获得有价值的审计疑点。有鉴于此，本文试图为寻找提高审计疑点发现效率的方法进行一些尝试。

数据挖掘是从大量的、模糊的、有噪声的、随机的数据集中发现人们事先未知的、隐含的、规律性的、但又有潜在价值的、能为人们所知悉理解的知识和信息的过程（Michelline K，2004）。本文将在对分类与聚类方法进行对比的基础上，着重关注与审计工作契合程度更高、不需训练集构建模型的聚类方法，尝试使用K-means聚类的方法测试A企业实际案例数据，探究该方法能否起到辅助发现审计疑点、提高效率的作用。

一、文献综述

直观上看，审计工作中查找审计疑点的过程类似数据挖掘中的离群点检测范畴。数据挖掘概念上的“离群点”指显著不同于其他对象，可能由不同的机制所产生的数据对象（Michelline K，2012）。离群点检测方法可以基于分类，也可以基于聚类。目前，就财务范围而言，关于几种主要分类方法的应用均有一些成果。如贝叶斯网络方法，王翠霞（2006）、朱慧明（2011）、熊涛（2013）、赵文平（2015）等使用A股市场的历史公开数据进行试验，分别确定了该方法可以在不苛求样本分布形式的条件下，较为科学地得出财务、信用等风险预警结果，且结果具有较高的准确性。周达培（2014）构建了应收账款风险预测的贝叶斯网络模型，选取案例公司实际应收账款样本数据进行训练与验证，说明了该模型的确可以为决策提供参考依据。张强（2014）在明确我国商业银行声誉风险分布特征和风险损失情况的基础上，构建了我国商业银行声誉风险评价指标体系，并据此利用贝叶斯网络模型分析了我国四大国有银行的声誉风险权重情况，给出了对其声誉风险影响显著的因素。又如支持向量机方法，Jae和yang（2006）应用支持向量机的方法研究银行破产预警问题，经与其他模型的预测结果比较，证实了该方法的有效性。贺颖（2010）构建了偏最小二乘法-支持向量机舞弊识别模型，以A股市场公开信息为基础进行试验，确认该模型效果较好。隋学深（2014）构建了基于支持向量机的银行贷款风险等级分类真实性审计二分类预测模型，经商业银行实际生产数据验证后确认模型正确率令人满意。

关于将聚类方法用于审计工作中，学者们同样进行了一些探索和尝试。孙薇（2007）选取八个维度衡量审计人员面临的审计风险，在虚拟案例中模拟专家打分为这些维度赋值，用模糊聚类的方法将被审计单位划为几类，据此评估承接审计业务面临的风险。袁冬明（2013）使用多家信托企业的多项财务指标，验证了聚类方法划分出的三类与业内对各信托企业的认识基本一致。郭红建（2015）将商业银行的大量数据去噪后，用K-means聚类方法得到10家商业银行信用风险状态及对应的监管指标等级划分，并经专家验证划分合理，提出K-means聚类算法可以提高审计分析质量。杨蕴毅（2015）基于“单次聚类结果中，可疑程度较低的疑点通常会被可疑程度更高的疑点所掩盖，”提出采用迭代聚类的方法，将明显的小簇（即疑点）筛除后，重复聚类，获取更多信息，并使用上市公司的财务报告数据进行测试，将发现的可疑值与证监会等机构的查处信息比对，验证了方法的可行性。刘巍（2010）以某救灾资金审计项目为载体，设计并编写了基于密度聚类（DBSCAN）的孤立点发现程序，发现了一些孤立点，为审计人员提供了审计疑点。谭艳娜（2011）提出将基于密度聚类（DBSCAN）的核心对象判定融合到局部异常因子（LOF）算法中，重新定义了核心对象，将聚类算法和离群点算法有机结合起来，可以在快速聚类的同时检测离群点，再以社保审计数据为基础进行测试，的确在事先没有具备审计政策法规知识以先验知识的情况下，发现了若干社保数据中异于普通数据对象的数据疑点，验证了算法的有效性。

二、聚类方法在审计中的应用流程

综合以上文献，在广义财务范围内，分类方法的应用已取得了许多成果，但其特点决定了难以在审计工作中应用。一方面建立模型的过程首先就需要相当数量的已经完成分类的数据作为训练集，而作为外部审计，对被审计单位数据了解有限，难以取得适当的训练集，即使能够取得，能否采信其分类结果亦存疑问。另一方面，即便取得了适当的训练集，且经审计人员确认训练集本身不存在重大错报，建立模型的过程也对审计人员要求甚高，推广方面有不少困难。

关于聚类算法的研究同样取得了不少有意义的成果，该方法是一种无指导的学习，不需要事先建立训练集训练模型，可以为审计实践提供指导。但是，上述成果中，所采用技术手段相当复杂，设计了全新的算法，对使用者的计算机水平和统计基础有较高要求，且多是研究企业特点，超限超载、贷款风险等问题，与一般社会审计实务中查找单一企业内审计疑点的要求存在一定的差距。因此，本文尝试从财务数据的角度，基于A公司实际数据，验证聚类方法在审计工作中的效果。同时选择开源、免费的工具，尽可能简单灵活的方法，方便真正应用、推广到实际审计工作中去。图1给出了在审计工作中使用聚类算法的大致步骤。

K-means聚类在审计疑点发现中的应用探索

相关文章：