基于数据挖掘的金融审计数据分析研究

作 者:

作者简介:
赵浏洋,长春财经学院,博士研究生,副教授,主要从事互联网金融方面的研究。

原文出处:
中国商论

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2021 年 03 期

关 键 词:

字号:

      审计机关是推动完善公共治理的重要力量,它可以通过提供以证据为基础的解决系统性问题的意见及建议,促进、完善政策和方案,发挥审计的监督、洞察和前瞻功能,推动改善公共治理。近年来,审计机关通过开展金融审计工作,有效地发挥了监督、洞察与前瞻功能,在促进防范和化解金融风险,提高金融服务实体经济质量和效益,完善金融监管体制,推动金融体制改革和金融领域反腐倡廉等方面发挥了重要作用。然而,在审计机构进行金融审计时,面临海量的数据,仅仅依靠传统的数据检索机制和方法是远远不够的,存在审计效率低下等问题。

      在上述背景下,数据挖掘技术应用成为审计领域研究的重点课题。利用数据挖掘技术寻找数据间潜在的关联,关键在于挖掘算法的选择上。常用的挖掘算法有很多,如Desaietal利用神经网络分类挖掘算法对3000个观察数据进行分析;孙北伐、张高煜、徐倩蓉等在《大数据环境下数据挖掘在审计中的分析与应用》中介绍决策树算法和随机森林算法的数据分析过程。此外,数据挖掘还包括聚类算法、神经网络算法、支持向量机、最近邻算法等。本文在已有研究经验的基础上,以聚类算法为基础,进行数据挖掘研究。研究过程如下:首先进行金融审计数据采集并进行预处理,提高数据质量,然后选取聚类算法作为挖掘算法,设置挖掘条件,进行模式匹配,找寻可疑数据。通过这些可疑数据,审计机构可以以此为依据进行追踪,探寻企业违法犯罪行为,为金融领域反腐倡廉工作提供依据。

      1 基于数据挖掘的金融审计数据分析方法

      随着计算机网络以及信息技术的不断发展,各行各业对信息系统的依赖程度越来越深,其中金融审计就是其中一个。金融审计就是在海量数据中寻找异常数据,从而发现问题,得出各种金融机构的经营状况,以便避免出现金融风险,揭露隐藏的违法违规行为,推进反腐倡廉工作。现代金融审计人员面对的不再是简单的纸质账目,而是存储在计算机系统数据库中的种类繁多的电子数据,要想通过人工完成数据分析是不现实的,因此本文通过数据挖掘技术进行金融审计数据分析。

      1.1 金融审计数据采集

      金融审计数据采集进行数据挖掘的第一步,也是后续进行数据分析的基础和前提。金融审计数据采集是指审计人员在利用计算机审计时,需要根据审计要求从被审计的金融机构信息系统中提取数据文件的过程。目前,采集方式主要有三种,即直接读取数据的方式、数据库连接性的方式以及数据传输的方式,三种方式特点比较如表1所示。

      

      1.2 金融审计数据预处理

      从各个金融机构系统数据采集得到的数据受到人为因素、系统因素等的影响,数据质量并不高,若直接用于后续数据挖掘,将会导致数据分析准确性降低。为此,需要对采集到的数据进行预处理,具体包括缺失值处理、重复数据处理、噪声数据处理、数据变换等。

      1.2.1 缺失值处理

      采集得到的原始数据极有可能存在缺失值,但是缺失值并不意味数据有错误。缺失值在整个数据集若是一个关键值,就需要进行填补。缺失值填补的方法有很多,如人工填写、平均值填充、最邻近方法填充、期望值最大化方法填充、贝叶斯Boostrap方法填充、回归法填充等。

      1.2.2 重复数据处理

      在采集到的原始金融审计数据中还存在一些重复记录的数据,这些数据也被称为冗余数据。冗余数据的存在会增加后续数据挖掘和分析的计算量,降低数据分析效率。对于重复数据的处理,需要进行记录排序,即根据关键字、词等进行排序,然后识别重复记录,将重复的数据进行合并。对于重复记录识别,可以通过简单的模糊匹配或各个角度的相似度计算来完成。

      1.2.3 噪声数据处理

      由于各种原因导致属性值不正确或不一致的数据被称为噪声数据。对于噪声数据,处理方法主要有三种:分箱、回归以及聚类,如表2所示。

      

      1.2.4 数据变换

      采集到的原始金融审计数据可能来自被审计金融机构的不同类型的数据库,而不同类型的数据库的数据是不同的,无法进行比较分析,因此需要将不同形式的金融审计数据转换成适合的审计分析软件处理所需要的形式,将数据规范成相对统计的形式,去除量纲,即数据规范化。数据规范化方法主要有以下三种。

      (1)Min-Max标准化(Min-Max normalization)

      Min-Max标准化,也称为最小-最大规范化,基本原理是对原始金融审计数据进行线性变换,使变换后的结果落到[0,1]区间内。Min-Max标准化表达式如下:

      

相关文章: