随着全球的信息化的高速发展,移动互联网、社交媒体、电子商务的兴起,产生了海量的数据,世界已进入网络化的大数据(Big Data)时代。一般意义上,大数据是指无法在可容忍的时间内用传统的IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。与传统的数据库处理对象和技术相比,大数据有四个显著的特点,即4V特点:Volume(数据体量大)、Velocity(处理速度快)、Variety(数据类型繁多)、Value(价值巨大但密度很低)。除了储存这些数据,我们更多是要利用这些大数据,对它们进行收集、整理、清洗和分析,利用这些数据创造新的价值。 国务院印发《关于加强审计工作的意见》,第19条明确提出:探索在审计实践中运用大数据技术的途径,加大数据综合利用力度,提高运用信息化技术查核问题、评价判断、宏观分析的能力。这是国家首次在文件中将大数据审计列入审计信息化工作重点。审计部门作为一个综合性的经济监督部门,和数据有着天然的联系,每天都会面对大量的数据,这些数据都是真实可靠的,具有非常大的价值。所以审计部门要深度挖掘、充分运用所拥有的数据,从而得出客观的审计结论,这是在大数据时代背景下,审计服务国家治理的内在要求和必然选择。在这样大数据环境下,如何利用大数据开展审计工作,值得我们认真思考。 数据挖掘技术是一种新型数据分析和处理技术,帮助人们从繁杂的数据中挖掘出有用的信息,发现其中存在的关系和规则。聚类算法是数据挖掘的一个重要方法,所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。聚类算法有很多种,大体上,根据定义聚类的方法来分,主要分为以下几类:(1)划分方法;(2)基于层次的方法;(3)基于密度的方法;(4)基于网络结构的方法;(5)基于模型的方法。本文运用数据挖掘技术进行大数据审计分析,提出一种新的方法。 本文第二部分是数据挖掘在大数据审计中的应用与方法,第三部分是采用小波变换进行异常数据检测,第四部分是K-means聚类算法,第五部分是实验结果与分析。 二、数据挖掘在大数据审计中的应用与方法 1.数据挖掘在大数据审计中的具体应用。数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。所以它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的。审计部门的数据挖掘主要是从庞大的数据库系统中挖掘更多有用的审计信息,从中寻找出一定的数据特征,发现可疑数据。 数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘。其中绝大部分都可以用于审计工作中。 (1)统计分析。它是基于模型的方法,包括回归分析、因子分析和判别分析等,用此方法可对数据进行分类和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型,或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,从而将其列为审计重点。 (2)聚类分析。聚类分析是把一个数据集划分成不同的组,使得同一组的个体之间的距离尽可能地小,而不同组的个体间的距离尽可能地大。通过聚类,容易识别出密集和稀疏的区域,从而发现被审计数据的分布模式。在审计过程中,通常是利用聚类分析技术对被审计单位的同类型的财务数据或者业务数据进行分组。一般来说,财务数据或重要业务数据的变动具有一定的规律性。所以如果某些数据处于稀疏区域,说明其变动表现异常,需要重点关注。 (3)分类分析。分类是数据挖掘中一项非常重要的任务。上述聚类属于无监督学习,也就是说样本中没有给定类别标签。而分类算法是有监督的学习,即训练样本中已经提前给定类别标签,基于这些训练样本数据建立分类器,然后使用分类器对测试样本集中的未给定类别标签的数据进行分类。比如,某医院将某一病种患者分为“高发人群”、“一般人群”和“低发人群”三类,各类患者有不同的属性和特点,在分类算法中称之为特征。审计根据这些特征建立分类器,将当年医院的患者进行分类,判断其分别属于哪一类,得出数据与当年收入结构进行对比分析,进一步判断医院当年收入数据的真实性和完整性。 (4)关联分析。它通过利用关联规则从操作数据库的所有细节或事务中抽取频繁出现的模式,其目的是挖掘隐藏在数据间的相互关系。利用关联分析,审计人员可找出被审计数据库中不同数据项之间的联系,从而发现存在异常联系的数据项,在此基础上通过进一步分析,发现审计疑点。 2.数据挖掘算法在大数据审计中的应用方法。数据挖掘算法在审计数据分析中应用的步骤可以分为数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善。 审计数据采集是指根据审计目标,利用一定的技术和工具软件对被审计单位信息系统中的电子数据进行采集的过程,该步骤是数据挖掘技术在审计方面应用的前提和基础。在数据采集前,审计人员应结合本次审计工作方案中的审计目的、范围、内容及重点,确定本次数据采集的范围、内容及重点。