刘家义审计长指出,对于目前的审计数据集中和分析工作,重点要做好五个方面的关联:一是从中央财政到省市县乃至每个乡镇的资金使用、从部门到项目具体执行单位的资金使用的纵向关联。二是从市财政、市发改委到一级、二级预算单位的各种专项资金的横向关联。三是财政、金融和企业三方面的数据关联。四是财政与其他多部门、多行业的数据关联。五是财政数据与业务数据、宏观经济数据的关联。为此,审计署提出了“总体分析、发现疑点、分散核查、系统研究”的大数据审计作业方式,该方式的核心就是要集中足够多、足够全的电子数据,建立包括财政、税收、金融、社保等行业部门以及审计业务相关数据的国家审计数据中心(以下简称数据中心)。但面对如此广泛、庞大、复杂的数据,要管理利用好这些资源,真正实现刘家义审计长提出的做好“五个关联分析”的目标,需要有一套管理机制和技术手段。本文针对大数据环境下审计数据分析工作的特点和关键以及审计数据的管理利用情况与需求,提出审计元数据的概念及其在实现“五个关联分析”中的功能和作用。 一、实现“五个关联分析”面临的挑战 近年来,审计署坚持把统一规划、分步实施作为基本方针,保证了审计信息化建设的有序推进,在一些关键环节上也取得了进展,为实现“五个关联分析”打下了基础。然而,这些新的技术方法和手段的应用也会给审计数据关联分析带来挑战,特别是由于社会各领域信息化建设水平不一造成的信息孤岛现象尤为突出,需要进一步完善。 一是需要统一不同种类数据的数据结构,破解信息孤岛现象。大数据在经济、社会、生活等各领域越来越重要,但由于缺乏统一的信息化建设和发展规划,各部门、各行业、各领域甚至在同一单位内部往往都存在着数据相对孤立和封闭的现象,致使在不同的数据规划中,相同含义的数据可能表现出不同的名称和结构,这将为今后数据集中分析和关联分析、实现数据的互联互通带来极大的困难。 二是需要对整个存储架构下的审计数据实行统一管理。让审计人员都能够了解整个架构中数据的存储位置、总量、类型、结构及含义,从而实现数据的共享。 三是需要整合不同行业和领域的数据规划。这些数据一般都是针对一个部门和行业的,每个规划中都有大量相对比较稳定的基础数据,如地域代码,可以将这些基础数据整合在一起,便于管理和更新。 四是需要建立可重复利用的审计模型。审计人员在建好的审计模型基础之上使用审计数据,充分利用已有的审计经验和方法指南,最大限度地发挥审计数据中心的作用。 二、审计元数据的定义、类型、功能及实现路径 (一)审计元数据的定义 审计元数据是关于审计数据的数据,简单地说就是管理审计数据的数据,它可以记录和管理整个数据中心所有相关的信息。审计数据的来源非常广泛,信息很丰富,为了对采集到的审计数据进行有效地分析和长远地利用,应对审计数据进行合理地组织和管理,即制定审计数据组织和管理的规范。而对审计数据的管理最主要的是与数据相关信息的管理,我们称为审计元数据,如:数据的来源、数据的格式、各表之间的关联关系等等。因此,我们将审计元数据定义为与审计数据采集、转换、存储和分析相关的所有物理数据和知识,包括物理数据的格式、技术和业务过程、数据的规则和约束以及审计所使用的数据结构。元数据不仅能对信息对象进行描述,还能够描述资源的使用环境、管理、加工、保存和使用等方面的情况。 (二)审计元数据的分类 根据功能将审计元数据划分为管理型元数据、描述型元数据、保存型元数据、技术型元数据和使用型元数据。从使用和管理的角度把审计元数据分为技术元数据和业务元数据。 技术元数据是关于支持开发、维护和管理信息技术环境中所有分析、设计、开发和管理等与技术关系密切的信息,它是连接开发工具、应用程序和系统的技术纽带。如:数据的技术结构、源系统字段标识、从源数据库到目标数据库的映射和转换、源数据库的表结构和属性、目标数据库的表结构和属性、采集历史、版本维护、清洗规则等等。技术元数据还包含其他很多内容,如数据转换的过程、产生审计中间表的语句等。 业务元数据则使审计数据的分析更易于为审计人员所理解,它为审计目标和过程的解释提供便捷浏览、导航和数据查询。数据从业务数据库到分析数据库的映射信息包括原始数据域的标示、属性到属性之间的映射、属性的转换、名称的转换、数据选择的算法逻辑等。如:审计人员了解的数据结构、表名的业务定义、属性名和业务术语定义、数据位置等等。 审计元数据的建设框架如图1所示:
(三)审计元数据的功能 首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在审计数据中心的建设中,元数据作为数据的数据,经过抽取、收集并存储于元数据库中。审计元数据库是一个结构化的存储、检索和管理元数据的系统,为了满足审计数据的管理和使用,也需要建立一套系统对其进行管理并至少应包含以下五个方面的功能: