一、面向审计业务的数据挖掘步骤 随着ERP和电子商务的普及应用,以现场人工操作为主的传统审计方式已不能适应网络时代经济发展的需求,连续审计应运而生。连续审计是指审计人员无论何时何地,都可通过网络,访问被审计单位的数据中心,开展实时在线审计。其过程包括数据采集、数据传输、数据存储与数据处理四个阶段。在数据处理环节,可以运用数据挖掘、在线分析处理等手段对采集到的海量数据进行分析处理。限于篇幅,以下仅讨论数据挖掘在审计分析中的运用。 数据挖掘技术在审计分析中应用的基本过程是:1.利用数据库系统的数据导入导出功能、ODBC和审计软件等方法采集被审计单位信息系统的数据。2.对数据进行清洗、集成、转换和规约等预处理工作。3.依据法规、财务业务处理逻辑、数据勾稽关系以及审计经验等途径构建模型,从审计数据中提取信息和知识.这是一个循环迭代的创新过程,要经过多次的试验、反馈、修正,才能获得一个高质量的模型。4.对业务范围、识别无效、数据异常等情况进行事件统计。5.利用OLAP(联机数据分析处理)工具对审计数据进行切片、切块、转轴、上卷、下钻等多方位、多角度的职业分析,以迅速找到审计线索并提出处理建议。 二、面向审计业务的数据挖掘方法 (一)分类和预测 分类是通过分析数据特征(如:结构性指标、盈利性指标、现金流量指标等),选择训练样本,构建模型(即分类器),将数据划分为不同的类别,并采取不同的审计策略。如:在存货审计时,根据重要性原则将存货分为A、B、C 三种类型,不同类型存货确定不同的抽查规模。常用的分类算法有决策树分类法、贝叶斯分类法、神经网络分类法、遗传分类法、模糊集分类法、K-最近邻分类法、粗糙集分类法等。预测是根据历史资料找出规律,创建模型,并依模型预测未知的或缺省的数据值。当预测值与审计值不一致甚至差异较大时,可列为审计重点。如:在坏账准备审计时,根据债务人的资信状况、历史数据,账龄分析,预测出的坏账准备与被审计单位实际计提的坏账准备存在较大差异时,审计人员可能据此认为坏账准备存在重大错报风险,应予以充分关注。 (二)聚类分析 聚类分析是根据同一聚类的对象相似,不同聚类对象相异的原理,将审计对象分成若干个群体(簇),它常用来检测局外情况。如:在控制测试过程中,用聚类分析法进行交易分组:在工程项目招标的控制环节中,用聚类分析法构造投标人的评价指标体系,对投标人进行量化考核和判别分类,为选择投标人提供客观公正的参考意见;在客户关系管理中,以客户的消费额或利润贡献等为标准,将客户分为三个类别(即关键客户群、主要客户群、普通客户群),并采取不同的营销策略和管理措施。 (三)关联规则 关联规则挖掘可以发现大量数据集合间有价值的联系。在审计中,运用关联规则可以分析安全事件间的关联,检测审计数据中存在的潜在关系,提高审计风险预警水平。如:根据客房数量、租金水平和空置率,可以检查一栋酒店大楼租金收入的完整性;根据存货进、销、存记录以及产品产量与成本项目的联系,可以检查被审计单位成本费用的合理性;利用相关账户余额、四大财务报表金额以及财务比率之间的勾稽关系,可以发现企业是否有假账真做、真账假做等现象。然而,关联规则仍然可能得出某些数据关系的错误判断,主要原因是审计数据的时间效应。为克服这种因素造成的风险,加权关联规则应用到了审计业务中。 (四)序列模式 序列模式与关联模式相似,但序列模式的对象是以时间的先后来区别的。在审计中,运用序列分析找出被审计单位入侵行为的序列关系,发现隐藏在审计数据中有规律的事件序列模式。 (五)离群点挖掘 离群数据挖掘是从错综复杂的数据中挖掘出不满足一般模式或规律、行为异常的小部分数据(即离群点)的过程。离群点通常掺杂在高维数据的异常数据中,这些异常数据可能给企业带来重大影响,如在账表中的个别异常数据可能预示着企业的违规行为。通过运用离群点挖掘算法,可有效地进行审计数据预处理,快速定位可疑数据,自动提取管理模式和业务模式。所以,离群点挖掘在贷款审批、信用卡欺诈、电子商务犯罪、网络入侵检测、医疗分析、天气预报等众多领域得到成功应用。但对于大规模动态变化的高维数据集时,离群点挖掘算法的计算量太大,耗的时间较多。因此,增量式离群点挖掘算法逐渐受到业界青睐。 (六)异常点检测 异常点检测是数据挖掘中常用的方法之一,它是从海量审计数据中挖掘出具有异常行为和特征的数据对象,主要应用于低维数据空间,如IT系统入侵检测、信用卡透支检测等领域。 (七)孤立点检测 孤立点检测是一个重要的数据挖掘类型,用来发现与审计数据源中的异常值(即孤立点)。审计中的可疑点通常表现为孤立点,可能是数据变异(如:季节性生产的企业,旺季销量很可观,而淡季销量严重下滑,应属于正常情况),也可能是执行错误或舞弊违规(如:某上市公司在某一年报中资产减值准备出现很大变动,可能是企业利用短期资产减值准备进行盈余管理)。但是,并非全部孤立点均是错误数据。所以,还需运用检查、观察、询问、函证、重新计算、重新执行和分析程序等常规审计方法,并结合被审计单位实际情况,才能查找出相应的错误数据。