“数据挖掘”通常也称为“知识发现”,顾名思义就是从海量数据中找出有用的知识。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。本文主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据,通过机器学习和数据库的交叉运用,从而实现基于数据分析挖掘的审计方法。 数据挖掘是针对日益庞大的电子数据应运而生的一种新型信息处理技术。它一般排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式或活动。这些模式或活动是指隐藏在大型数据库、数据仓库或其他大量信息存储的特定数据。利用数据仓库中包含的信息,数据挖掘可以发现注册会计师(CPA)原先根本没有关注过的问题。数据挖掘方法千差万别,不同的方法应用于不同的领域和对象。选取合适可行的挖掘算法对挖掘的效果起着重要的作用,它将直接影响我们的决策。在实际运用过程中,很多挖掘方法不是单独使用的,它往往和其他方法结合起来,才能产生预期的效果。 本文对数据挖掘分析方法在审计数据分析中如何应用进行深入研究,同时结合数据挖掘应用案例探索其具体实现路径。 一、基于数据挖掘算法的审计应用 对于审计人员来说,如何利用人工智能技术、图算法、机器学习、迁移学习、数据挖掘算法等新技术,实现审计人员从被审计单位海量的数据中心找出高质量的审计数据,挖掘潜在的审计疑点,作为审计证据是一个难题。数据挖掘技术的出现,为审计师进行大数据分析和挖掘有价值的数据提供了可能。基于挖掘技术的审计就是利用各种数据分析方法对审计数据的充分利用、充分挖掘,以获取更多相关的审计线索。其主要达到如下目标: (1)直接提供审计证据,如明显违反会计准则和相关会计法规的行为; (2)发现异常信息,起到“红旗(red flag)”的指向标作用,能引起审计师的注意; (3)借助数据挖掘技术,可部分代替审计职业判断,减轻审计师的工作强度。 数据挖掘技术在审计中的应用包括数据验证、数据分析、智能推理三个方面。具体如图1所示。 1.数据验证 数据验证子系统具体可分为检查、核对两大功能。检查是按照会计准则和相关政策法规的要求,对某一项数据或处理进行检查,以发现是否有违反规定的情况。核对是将某些具有内在联系的数据,按照其勾稽关系,进行逐一核对与排查,其目的是验证被审计单位信息系统业务流程的正确性,有无人工非法干预等,为分析提取数据间的隐性关系做好基础支撑。数组验证包含全面重算、社会对账两个重要方法。 (1)全面重算:是对导入会审软件的基础数据,按照与被审计单位相同或相似的处理方法全方位重新计算,来验证被审计单位提供数据的真实性与正确性,以及信息系统处理逻辑的正确性,这是一种简单、经济的防止“假账真查”的方法。 (2)社会对账:社会对账目的是实现对原始凭证和公允价值的自动化查证。它要求监管部门建立会计信息中心,要求各经济单位定期上传标准格式的会计数据,CPA通过相关的认证机制从中获取标准对账数据。从而克服传统函证方式的不足,实现原始凭证查证的自动化。通过专业估价网站,获取各个时点的公允价值数据进行审计。 2.数据分析 数据分析子系统具有数据检索、筛选、统计和智能分析四大功能。检索是按照CPA的要求,以灵活多样的方式向CPA提供信息,达到“想看什么就能看什么”的目的,使CPA彻底地从纸质资料中解放出来。筛选是依据抽样的原则与方法,按照CPA的指令将CPA感兴趣的或具有代表性的一部分数据挑选出来,目的是缩小审计范围,降低审计风险。统计为CPA提供一系列的分析指标与工具,最大限度地方便CPA进行信息处理。智能分析是运用数据仓库技术,对被审计单位的数据进行多维分析和挖掘,给CPA提供新的疑点。 基于现有审计知识的数据分析方法主要有以下几种: (1)合规分析方法:通过会审软件的会计核算部分,根据会计准则和被审计单位业务处理逻辑的数据处理要求,检查是否有账证不符、账账不符、账表不符、表表不符的情况;账户对应关系是否正常;是否存在非正常挂账、非正常调账现象;账户余额方向是否存在异常;是否有违背被审计单位业务处理逻辑的情况等等。 (2)趋势分析方法:指CPA将被审计单位若干期相关数据进行比较和分析,从中找出规律或发现异常变动的方法。它是利用少量时间点上或期间的经济数据来进行比较分析的特殊时间序列法,此法有助于CPA从宏观上把握事务的发展规律。CPA可根据审计需要来确定时间序列的粒度,如年、季、月、旬、日等。 (3)结构分析方法:也叫比重分析法,是通过计算各个组成部分占总体的比重来揭示总体的结构关系和各个构成项目的相对重要程度,从而确定重点构成项目,提示进一步分析的方向。结构分析法和趋势分析法还可结合应用,进行数据结构比例在若干期间的变动趋势分析。应用结构分析法和趋势分析法,对被审计单位的资产、负债、损益和现金流的结构分析、趋势分析以及结构比例的趋势分析,对被审计单位的总体财务状况、经营成果和现金流量情况形成总体的全面了解。