新时代下,大数据运用日益在国家审计中发挥关键支撑作用,但审计大数据来自各行各业,具有结构、内容、形式等差异,并且不同的审计任务需要根据关注点从不同的角度来考察数据。因此,甄别特定数据集对于不同审计目标的适用性就成为大数据运用的一个关键前提条件。本文以大数据运用为导向,试图依据提示审计特征和物理属性的审计数据标识,提出一种能够方便审计人员根据审计目标快速判断数据集适用性的审计数据标识甄别框架设计方案。 审计数据标识的作用 审计数据标识是在对审计数据的结构和来源等物理特性高度概括的基础上扩展标示其涉及审计内容的适用性特征和关联属性等内容的可解译电子标签,这个标签是一段字符形式的代码,以字符串按顺序描述的方法标明了审计人员运用大数据方法执行审计任务时所需知道的某一特定数据集的各类特征和属性。如图1所示,“00ora110winserv280oildusOsaleinfo00”就是一个数据标识内容的字符串代码完整表示,可以方便地由数据库及各类计算程序保存并处理。
审计数据标识的作用主要体现在两个方面。一方面,审计数据标识指明了数据适用性。审计目标决定了审计内容,同时也明确了审计数据的检查范围,因此,特定审计数据的适用性主要取决于数据与审计事项的逻辑关系,该逻辑关系是指反映审计事项中的统计数字结论在计算过程中会受到特定数据变化影响的因果关系。另一方面,审计数据标识指明了数据间的关联性。审计目标通常是从审计事项中抽象出来的总括性概念,具有跨越多个审计事项的特点,因此,利用具体事项数据的数学抽象性,可以通过数学和逻辑运算来发现数据之间的关联性,进而揭示审计事项之间是如何关联和渗透影响的。 审计数据标识的组成内容 数据来源的行业与业务流程是其基本内容,数据所具有的含义和特性来自于可以明确定义的数据产生的事务流程。数据影响财务报表的方式是其关键内容,数据如何与财务报表相关并影响财务报表的结果对审计任务具有直观的意义。数据直接关联的审计对象是其本质内容,要明确数据交叉关联对审计目标具有的特殊含义,就先要确定数据对于具体审计对象的直接意义。数据可操作的物理结构是其技术内容,数据的物理结构和计算环境决定了多个数据集之间交互关联的可操作性,也指明了一个数据集可以直接进行运算的其他数据集的范围。 审计数据标识甄别框架设计 (一)审计数据标识的物理结构设计 审计数据标识的物理形式是一个标记数据的物理结构、计算环境、产生来源、内容用途、审计关联等属性和特征的数字化标签,该标签的代码形式可以被逐段分析并解释。如图1所示,orall表示数据导出自11.0版本的Oracle数据库,winserv 28表示数据运行在Windows Server 2008操作系统上,oildus表示数据来自石油行业的业务系统,saleinfo表示销售信息系统数据等。约定以数字0作为字符串分隔符,双数字00作为电子标签的起始和结束分隔符,然后将这些表示具体属性的字符串拼接起来,就形成了数据标识的数字化标签内容。 (二)审计数据标识甄别框架设计 审计数据标识甄别框架的数字化实现是以数据库技术为基础的,而标识字符分类、标识字符检索、标识存储、标识解译是标识甄别框架必须具备的功能。此外,还需要标准化的接口以便审计人员进行直接或间接的操作。 甄别框架的技术实现关键在于字符的分类和标识的存储架构,其中字符的分类通过数据库中一系列层次化关联的数据表来完整描述,这些数据表通过将字符对应的属性概念由概括到精确逐层分解建立自上向下的关联关系来实现字符的分类,例如,“制造业”概念的下一层细化关联可以是“汽车制造”和“电器制造”;而标识的存储同样以逐层索引的方式实现,由若干以关键字作为索引的数据存储表来构成存储空间,这一实现方式类似于字典中一个汉字条目下有以该汉字开头的双字及多字词组。 审计数据标识甄别框架的实现还需要标识字符检索和标识解译这两种被称为元操作的底层运算来支撑,其中标识字符检索是对全部可能组成标识内容的字符串进行查找,依赖数据库中以标识字符分类为基础的一系列层次化结构的分类和释义表集合,通过针对字符层级和组合方式进行优化的排序查找算法来实现;标识解译是对表示数据标识的代码进行分析以识别出代表具体含义的字符串并输出可被审计人员理解的数据标识说明,这是以标识字符检索为基础通过针对特定编码规则进行优化的分析算法实现的字符串释义字典的翻译过程。 (三)审计数据标识甄别流程设计 审计数据标识的甄别过程是基于标识甄别框架在数据库中表结构和元操作支持下的一个计算和事务流程模型。经简化后的数据标识甄别流程示意框架如图2所示,标识字符的分类和检索、标识的存储和解译功能对应的大量层次化数据表由示意图中数据库内的目录表、标识表和标识字符串字典表分别抽象表示,甄别操作按顺序读取上述表并执行底层操作。标识甄别过程即是标识甄别框架支持下的对具体标识字符的分析、检索和解译的处理过程,这一过程可以简单地类比为将指定的词组翻译为另一种语言的详细解释。如图2所示,甄别需求的实现就是通过对特定的标识字符在数据库中检索其对应的标识内容并进行含义解释,最终输出审计人员可理解的数据适用性和关联性说明。