审计数据挖掘模型的概述及应用

作 者:

作者简介:

原文出处:
青海审计

内容提要:


期刊代号:V3
分类名称:审计文摘
复印期号:2007 年 06 期

关 键 词:

字号:

      为解决海量数据审计中的实际问题,我们可以建立审计数据挖掘模型(如图一),该模型包括六个基本模块:审计业务定义模块、数据准备模块、数据验证模块、操作模块、数据挖掘模块以及审计决策模块,下面分别对每个模块做一详细说明。

      一、审计数据模型概述

      1.审计业务定义模块

      即模块功能:在审前调查的基础上,了解并确定要采集的数据,然后根据被审计单位行业特点和审计数据特点,定义出通过数据挖掘帮助我们发现什么数据、解决什么问题。

      2.数据准备模块

      数据准备阶段的工作即重要且工作量也十分巨大,有人做过统计,在数据挖掘过程中80%的时间用于数据准备,而挖掘工作仅占总工作量的 10%,这充分说明数据挖掘对数据的严格要求,数据准备的好与坏、充分与否将直接关系到数据挖掘的最终结果。该模块包括:数据采集、数据经济含义转换、数据清理、数据预处理四个子模块。因为在数据预处理模块中,包含两个重要的内容:数据变换和数据归约,所以在下面的论述里,把数据预处理模块分解成数据变换和数据归约两个模块来描述。

      (1)数据采集(DataCollection)

      模块功能:确定选择采集那些数据,用什么工具、采用什么方式去采集。

      

      图一 审计数据挖掘模型

      (2)数据经济学含义转换

      模块功能:将采集到的数据转换为统一的格式并赋予经济含义。

      (3)数据清理(DataScrubbing)

      模块功能:清理数据冗余、错误的数据并解决数据不一致性问题,形成“审计中间表”。

      (4)数据变换(DataTransformation)

      模块功能:将审计数据变换为适合数据挖掘的形式。

      (5)数据归约(DataReduction)

      模块功能:对海量数据集采用数据归约技术进行归约,用归约后的数据集表示未归约前的数据,归约后的数据集小的多,但数据特性仍接近于保持原数据的完整性。

      3.数据验证模块

      模块功能:在完成数据采集、数据经济学转换和数据清理的每一步后,对数据的正确性进行验证。

      4.具体操作模块

      模块功能:定义数据准备阶段每一子模块的具体操作方法。

      5.数据挖掘模块

      模块功能:选择数据挖掘模式,选取恰当的数据挖掘工具,对处理好的数据进行数据挖掘。

      另外需要强调的一点是:由于需要做准备工作,数据挖掘并非是一个完全自动化的过程,整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。

      6.决策模块

      模块功能:分析数据挖掘结果,得出审计思路,作出审计决策。

      以上说明了数据挖掘模型各个模块的功能,应注意的是,这几个模块之间是彼此交叉、相互联系,而不是相互独立的。从图一上也可以看到,数据准备模块和审计业务定义模块之间是交叉的,数据准备模块、操作模块以及数据验证模块是并行的,在数据清理后结合审计业务定义就可以选择数据挖掘模式,而数据挖掘模式的选择又影响到数据预处理以及数据预处理所采用的技术。

      二、审计数据挖掘模型的特点

      本模型较其它审计数据处理模型具有如下的特点:

      1.较强的可操作性和可伸缩性。具体操作模块的每个子模块都和数据准备阶段子模块一一对应,详细解释了数据准备阶段每个子模块具体做什么操作或每个阶段应该考虑那些问题,使该模型具有操作性。根据数据的特点可以选择相应的模块,使模块具有灵活性、伸缩性。

      2.较强的实用性。本模型是在分析其它审计模型的基础上,结合自己审计工作中的经验和数据挖掘知识,针对解决海量数据的实际审计问题提出的,所以能较好的解决这类问题。

      3.强调数据验证。强调在审计数据准备阶段中,从完成数据采集、数据经济学转换到数据清理的每一步,审计人员都必须不断进行数据验证,保证审计数据的正确性,从而保证审计结果的公正性、客观性和准确性。

      4.强调数据预处理。把数据挖掘中的数据变换和数据归约技术运用到审计数据处理上,实验结果证明这些数据处理策略提高了挖掘效果和挖掘效率,这为在海量审计数据集上进行数据挖掘提供了部分解决方案。

      5.这一模型是建立在OLAP基础上的,被审计单位数据经过采集、清理和抽取后,导入到数据仓库,部分解决了联网审计的问题,这种方式能较好的解决数据安全性问题。

      三、举例说明:建立审计业务数据计算机挖掘模型的实际应用效果

      某审计组在对某航空公司XX年度的财务收支情况进行审计中,把航油支出的合法性列为审计重点。审计组为判断该航空公司是否存在利用飞机从国外带油现象,审计人员对其以往的航班记录进行检查,核实其加油量是否大于消耗量。对全部航班记录按照航空公司、飞机机型、航线类型、航班性质、航班类型、航段距离以及加油量与耗油量的差额等相关因素进行分组,通过了解各组记录的特征,从而发现是否存在从国外带油的现象。

      审计数据挖掘结果的业务分析

      (1)数据挖掘所用表和挖掘算法

      以“飞行任务书表”、“航段信息”表和“机型说明”表为事例表,对航班飞行记录进行分类,输入字段有:航空公司、飞机机型、航线类型、航班性质、航班类型、航段距离以及加油量与耗油量的差额等相关因素,采用Analysis-Service中的微软聚类算法。

相关文章: