一、大数据的定义及大数据时代下的审计特征 在大数据技术的发展过程中,针对大数据定义的讨论从来没有停止过。维克托·迈尔-舍恩伯格是最早洞悉大数据时代发展趋势的数据科学家。他认为,大数据是指不用随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理的方法。大数据就像一个高维多面体,站在某个特定的角度只能观察到大数据全貌的一个或者几个方面。因此,对于“所有数据”的内涵外延以及大数据处理方法的特点,不同行业、领域有各自不同的理解。从以上定义可以看出,大数据区别于传统数据的两个重要特点是:海量数据以及多维数据。 随着数据组织形式的发展,审计通过不同的方式来履行管理监督职能:在主要数据载体为纸质账本、凭证时,审计缺乏有效的数据分析方法,依靠审计人员经验发掘问题,带有一定偶然性;随着计算机技术的发展,审计数据分析逐渐依托电子化的财务、业务数据库,分析效率大大提升,但一般只涉及被审计对象的电子数据,缺乏外围数据的印证;如今,信息化的普及为审计大数据分析提供了可能,数据的容量和广度发生了巨大变化,审计工作面临前所未有的机遇和挑战(阮哈建等,2013)。如果说过去的审计方法是线性的逐步深入、“顺藤摸瓜”,那么大数据审计就是网状的,是用数据织成的网在审计关注的领域中捕获兴趣点。编织大数据网的关键在于建立大数据的横向和纵向两个维度,目前已经有一些针对单个行业的大数据分析处理方法研究,如社保(邱玉慧等,2014)、金融(吕劲松等,2014)、电信(罗昕,2014)等,但缺乏大数据横向维度的扩展。审计署审计长刘家义的“五个关联”充分概括了以财政数据为中心的大数据网构建要素——其中的第一个关联建立了各级财政资金的纵向关联,保障了审计大数据网的纵向完整性;后四个关联建立了各个行业领域数据互相关联的横向维度,保障了审计大数据网的横向完整性。“五个关联”提出了编织审计大数据网的宝贵思路,由此,审计不再局限于某个被审计单位、某个审计项目甚至某个审计领域,而是整合筛选疑点、多维锁定、延伸落实等大数据审计模式的全貌审计。 二、多行业大数据关联审计实施方法 大数据关联审计的前提在于拥有量足够大、维度足够多的数据,因此建立一个纵向有深度、横向有广度的多行业大数据中心是开展大数据审计工作的首要任务。大数据中心应涵盖以财政数据为中心、与政府行为息息相关、贯穿整个政府社会活动脉络各个行业领域的数据,并通过对跨行业数据进行关联比对,从多个视角去聚焦审计所关注的内容。 现阶段,多行业大数据中心建设的主要难点有三个方面:一是大数据中心数据采集过程涉及行业多,工作量大,逐个现场采集的方法不太可行;二是各行业系统数据兼容性差、异构性强,很难集中到统一的平台;三是由于数据量大,又涉及多个行业,数据更新的难度大,时效性保障困难。 对此,本文提出以下三点实施策略:一是固化数据采集需求,与相关行业数据的主体单位达成共识,努力将数据采集周期和采集办法制度化,使数据采集成为一项定期的任务。二是将采集的各行业数据进行标准化处理,通过表之间的整理合并,生成涵盖主要业务数据的行业标准表,并利用T-SQL语句固化标准表生成过程。这种方法有两个好处:一方面能够消除不同行业数据的异构性,将一个系统内部众多数据表整合生成几张标准表,为不同行业数据的集中存储和关联分析创造可行性;另一方面通过T-SQL固化的标准表生成过程可以在每次行业数据再次采集更新时使用,促进数据采集、标准化、存储三个流程的自动化,提高工作效率。三是制定行业数据标准表的更新策略,数据内容相对稳定的标准表实行“采集一次,更新一次”的策略,数据内容变更频繁的标准表按月份或者按季度进行更新。由于当前软硬件条件限制,只能做到手动的、非实时的跨行业数据更新,只能从制度和方案上优化更新策略。 以上实施策略贯穿整个大数据中心建设过程中的数据采集、数据存储、数据更新三个过程,是跨行业数据集中处理的基础。基于这样的实施策略,以下围绕“五个关联”大数据网的建设思路,提出大数据关联审计的实现步骤。 (一)财政数据纵向全覆盖 “金财工程”推动了全国财政数据的标准化和统一化,为财政数据纵向采集和关联打下基础。由于省、市、县财政数据结构相互兼容,只需要定期采集各级财政数据,对照财政数据字典,将指标主表、计划主表、支付主表抽离汇总,形成涵盖各级财政数据的集合。 以市级范围财政数据的采集为例。只需按照一定周期(一年)汇总各区(市)县和市本级财政集中支付系统(大平台)数据,抽离出各区(市)县和本级指标、计划、支付三类主表,通过UNION ALL操作分别进行整合,整合过程中对每张主表加上“核算级次”字段,以区分数据的来源。财政数据标准表包括三类:指标表(T_BDGMAIN、T_BDGSUB、T_GLBDGCTRL)、计划表(T_PLANMAIN、T_GLPLANCTRL)、支付表(T_PAYVCH)。通过分析指标、计划、支付三部分数据可以跟踪各级财政预算执行进度以及对执行过程的合理性、合规性进行审查,而支付数据作为财政资金出口的直接凭证,记录了每笔财政资金的最终流向,更应重点关注。