在大数据环境中,由于审计数据牵涉到的部门多、数量大且不确定性较高,数据之间的关联性显得尤为重要,审计师必须采取某种技术手段、有效利用采集的数据才能达到最初的审计目标。本文认为,数据挖掘技术提供了建立数据关联的思路,该技术也被称为数据库中的知识发现(Knowledge Discovery in Database,简称KDD),就其本质而言,数据挖掘仅仅是数据处理的中间过程,它能从大型的数据库和数据集合中发现比较有价值和有意义的数据,并通过既定定义或特定规则,将数据按照审计师的要求生成关联数据,从而达到最终审计目的。 一、基于数据挖掘技术的大数据审计关联思路 (一)大数据关联规则的挖掘 数据的关联规则是指数据之间普遍存在的空间位置和时间序列的关联抽象,而关联规则的挖掘就是指从海量数据中项集之间发现有趣的关联或相关,从而达到认识事物客观规律的技术方法。审计师必须在无序、无对应或无逻辑的数据中挖掘出数据的关联规则,且规则必须与审计目标呈现一定的关联性,才能更好为后续审计分析提供帮助。审计实践中发现,关联性更强的关联数据,其证明力更强,得出的审计结论更为精确,反之亦然。因此,审计师的目标就是能够寻求数据之间更为针对性的关联关系,从关联数据中挖掘出符合审计目标要求的属性,进一步为审计取证提供强有力的支持。一般而言,数据关联规则的挖掘分为四个步骤,即确定业务目标(对象)、数据准备、数据挖掘、结果表达,如图一所示。 1.确定业务目标。审计对象的性质是审计师界定数据挖掘规则的重要着手点,因此审计师在执行具体审计方案的时候就必须理解审计对象的性质,这是大数据审计必须关注的重点。清晰地定义挖掘目标,对于挖掘规则目的的明确具有良好的指导意义,这是由数据挖掘技术的本质所决定的。同时,业务目标的确立也为数据规则算法的明确以及规则的生成给予结果上的保障。 2.数据准备。大数据审计的难点就在于数据的搜集和整理。就该步骤而言,数据准备工作是做好数据挖掘的基础,通常包括数据清理、数据集成、数据选择和数据变换四个方面。一是数据清理,面对内部和外部不同信息源中数据呈现不同规范、不相一致甚至冗余的特点,必须要消除噪音数据,确保基础分析数据的统一规范;二是数据集成,将剔除冗余、消除噪音后的数据按照挖掘规则的要求加以集成,形成结构统一、相对完备的数据集;三是数据选择,根据审计目标要求,选择与业务对象相关的数据集,这在内容上决定了后续的数据挖掘质量;四是数据变换,在确保不损失完整信息表示的前提下,将数据转化成基于挖掘算法的审计分析模型。 3.数据关联规则挖掘。审计师将转换的数据按照既定规则和算法进行挖掘,得出目标分析结论,该过程是数据挖掘算法执行的核心步骤。为确保各个信息源的数据得到关联,首先要确保数据库后台的数据是有关同一审计目标的信息,只有相关的数据融合才能确保数据被审计师整体利用。审计目标信息的融合是将多数据库信息进行的有效处理,从而得到比单一信息源更准确的审计结论,为此受数据规则的影响,规则算法影响的适用性和准确性将得到更充分的体现。
4.结果表达。通过关联算法规则执行后的结果即为审计师所要实现的结果表达,若数据关联规则不易表达,则可以通过可视化的技术方法,将结果转化为审计师的意思表示。这样得出的数据挖掘结果,基本上将隐藏在无规则数据中的信息以有价值的、新颖的且有潜在效用的模型及结构呈现出来。
(二)大数据审计关联规则挖掘的代表类型 数据关联规则的挖掘是关联数据建立的基础,因此必须主观上认识到数据之间存在的客观规则,利用合理有效的算法计算规则,才能更准确把握关联数据在审计中发挥的作用。审计实践中,为实现审计目标,审计师一般先通过采集的数据提取与审计目标相关联的关联因子,如数据特征、身份特征、地理位置、目标群特征等,再利用合理的测度来实现数据间的关联确认。事实上,这些关联因子取决于审计师主观上对于审计结论的预期,审计师往往通过关联数据得出预期结论,从而证实自己最初的审计判断。在大数据时代,海量的数据为关联因子的应用提供了丰厚的土壤,而审计师通过数据挖掘技术也拓展了更多的关联规则,进一步将数据和审计目标紧密结合起来。这种通过关联因子挖掘的关联规则在审计应用上得到了众多的学者关注,也产生了很多具有代表性的关联规则类型。 1.量化属性关联规则。按照关联规则中关联因子的类别不同,关联规则一般分为布尔型和数量型。前者是离散的、种类化的,显示关联因子之间的关系,常用于事务性数据库,如购物篮分析技术;后者则对数值型字段进行处理,是数量关联规则的应用形态,研究的是“属性-值”的关系。数量关联规则通过动态分割,将审计关联因子量化值划分为若干区间,再者或直接通过对原始数据进行相关处理,从而得出“属性-值”的关系。对于此类关联规则,如何有效的处理属性及其值是解决该类问题的重点和关键,如审计中经常用到的数值属性“收入”、“年龄”、“固定资产”等。