一、引言 随着信息技术的广泛应用,审计数据变得越来越庞大和复杂,审计线索被日益复杂的信息系统和海量的业务数据所掩盖,审计人员面对各种以不同形式存储的数据资料进行分析,仅仅依靠传统的数据检索查询和统计分析方法是难以实现审计目标的。随着计算机技术在审计中的应用,计算机辅助审计技术得到了快速的发展。计算机辅助审计技术(Computer-aided Auditing Technique)是现代审计人员完成审计任务所不可缺少的工具。审计人员可以利用计算机编制审计计划、审计工作底稿,进行审计分析,查询有关法规条例,分析审计资料,并对计算机会计系统进行测试等。从计算机辅助审计的实践来看,虽然已由概念发展为一系列的可操作性实践,但由于审计工作对于审计人员素质的依赖性较强,计算机辅助功能的发挥尚且有限,特别是在以实质性分析为核心的审计证据查找工作中,尚缺乏有效的辅助工具。而在计算机应用研究中,面对“数据丰富,知识贫乏”的挑战,数据挖掘、数据仓库等面向分析决策的计算机技术应运而生。这些技术无疑为现代审计提供了新的思路和方法,也为审计信息化的发展提供了新的途径。 二、审计中数据挖掘技本应用现状及Excel数据挖掘工具的功能 数据挖掘(Date Mining)是通过仔细分析大量数据来提示有意义的新的关系,一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式。数据挖掘是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括。 (一)审计中数据挖掘技术应用现状 随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的大量数据,由于分析工具的有限,形成了一种独特的现象“丰富的数据,贫乏的知识”。为有效解决这一问题,自20世纪90年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求。数据挖掘技术从产生起就是面向应用的。目前,数据挖掘已在银行、电信、保险、交通、零售(如超级市场)等领域中成为决策支持的有效工具。数据挖掘的典型应用包括数据库营销(Database Marketing)、客户群体划分(customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(cross-selline)等市场分析行为,以及客户流失性分析(Chum Analysis)、客户信用记分(credit Scoring)、欺诈发现(Fraud Detection)等。这些应用都是摆脱了原有行业的理论框架,从数据或者交易记录的自身规律出发,按照各自的目标,完成知识发现过程,从而为决策者提供有价值的信息。利用数据挖掘技术对被审计单位的海量数据进行发掘式审计,是现代审计技术方法一大突破,这一思路在审计研究和实践中已并不陌生。根据数据挖掘原理,基于数据控制的审计流程可分为以下阶段:数据预处理、发现规律、规律库的数据更新、审计系统的训练与测试,以及对形成的可疑数据进行审计判断。鉴于数据挖掘在其他领域的成功应用,学者们认为在理论上,数据挖掘有助于降低审计风险,提高审计质量。同时,在审计实践中的已出现了一些数据挖掘应用的典型案例,如基于关联规则的海关审单商品分类审计、基于孤立点挖掘的职工工资分析审计、利用聚类技术审计交易记录等,这些实践取得了不错的效果。由此可见,数据挖掘作为一种成熟的数据分析手段能够有效地从海量数据中提取有价值的信息,并已在审计工作中得到了初步应用。但由于数据挖掘技术包括大量的统计技术和数学建模技术,审计人员很难在短时间内掌握,多样性及复杂性使得这一应用还没有达到“落地”效果,寻找一种易于理解的数据挖掘工具显得十分必要的。 (二)Excel数据挖掘工具的功能当前数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。特定领域的数据挖掘工具针对特定领域的问题提供解决方案。这类工具针对性比较强,只能用于一种应用,而且往往采用特殊的算法,可以处理特殊的数据,发现的知识可靠度也比较高。如IBM公司的Advanced Scout系统就是针对NBA的数据,帮助教练进行优化战术组合的工具。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,如IBM公司Almaden研究中心开发的QUEST系统、SGI公司开发的MineSet、加拿大SimonFrase大学开发的DBMiner系统等。目前很多大型数据库和联机分析系统本身也集成了数据挖掘技术,使人们利用数据挖掘更为方便和快捷。然而对于一般的审计工作人员而言,这些工具都较为陌生,很难直接应用于工作之中。从当前计算机辅助审计的发展来看,Excel是最为审计人员熟悉和接受的软件,具有简单易于操作的特点。特别是Microsoft公司为Excel 2007以后版本提供了一个免费的数据挖掘外接程序SQLServer2005 DMAddin.msi,安装完SQL Server 2005后再安装该外接程序,在Excel中出现“数据挖掘”选项卡,这一模块包括九大模型:决策树、贝叶斯概率分类、关联分析、聚类分析、时序聚类、线性回归、Logistic回归、类神经网络和时间序列分析,基本涵盖了主要的数据挖掘技术方法。Excel2007数据挖掘功能分成七大区块的工具:数据准备、数据建模、准确性和验证、模型用法、管理、连接和帮助。数据准备是指在开始数据挖掘之前,对数据进行清除整理;数据建模是指开始进行数据挖掘步骤,可以建立挖掘模型、预测分析等。其中数据模型化的方法有分类、估计、关联、预测等。准确性和验证是指通过图形来查看挖掘模型;模型用法是指对已构建好的挖掘模型条件式查询其结果;管理是对已构建好的挖掘模型管理其挖掘结构;连接是设定与追踪Analysis Services的连接;帮助是指可取得数据挖掘加载项的使用说明。 三、基于Excel的审计数据挖掘的技术方法 查错纠弊是审计的基本作用之一,这使得寻找异常数据成为重要审计线索的发现途径,运用数据挖掘技术可以获得蕴涵在审计数据内部的模式、规律,审计人员能够有效发现经济业务的异常。结合Excel所提供的数据挖掘工具中的九个模型进行审计分析,其审计数据挖掘框架如(图1)所示。审计中所发现的异常情况反映在数据上,通常是离群点和孤立点。离群点是偏离一般规律和趋势的也数据,其分析通常是建立在估计预测分析基础之上的。孤立点是数据源中显著不同于其他数据的对象,其分析是建立在分类分析基础上。就Excel数据挖掘工具所提供的九种模型而言,可以有效实现估计预测分析和分类分析,进而用于离群点和孤立点的挖掘。