大数据作为互联网发展中的新兴产物,正在逐渐影响和改变人们的思维模式,在各个行业、各个领域得到广泛运用。审计作为一种数据分析的鉴证活动,正需要大数据的大量、快速处理技术来提高审计效能,大数据给审计工作的飞跃发展带来了不可多得的机会。但是另一方面,在大数据环境下,审计面临的情况更加复杂:数据呈现海量化、虚拟化、分布散乱等特征,传统的审计技术、审计流程可能面临取数困难、分析困难、查证困难。因此,2015年12月9日中办、国办印发的《关于实行审计全覆盖的实施意见》提出,要构建大数据审计工作模式,提高审计效率和质量。那么,什么是大数据审计工作模式?如何开展大数据审计?目前都还处于探讨之中。本文以此为契机,利用大数据处理技术推动审计技术的革新,重构审计实施流程,搭建大数据持续审计的工作模式,推动审计信息化建设,有效发挥审计监督服务的效能。 二、大数据与大数据技术 (一)大数据 大数据(Big data)也称海量数据,顾名思义就是数据量大,其体量可以达到数百TB甚至PB级。最先系统研究和应用大数据的先驱者麦肯锡公司从工具处理角度把大数据定义为无法用传统的软件工具在短时间内进行获取、分析和管理的海量数据。维基百科从人工处理的角度将大数据定义为在一定时间内人工无法进行采集、处理、分析并从中获取有用信息的大体量数据集合。从审计的角度看,大数据应是被审计对象的海量数据集合,包括传统的财务账套数据、台账明细账形式的业务数据以及外部相关联的结构化和非结构化数据。 从以上定义可以看出,大数据的内涵已经超出了传统意义上数据的标准。不仅表现在体量上的“大”,而且还在于传统的工具对其处理的难度上的“大”,且在本身性质上还出现非结构化等不规则的特征。一是数据体量巨大。数据不仅在形式上由纸质向电子数据转变,而且在体量上也呈几何速度的增长,数据计量单位也从传统的Byte、KB、MB、GB发展到TB、PB、EB、ZB、YB,甚至用BB、NB、DB来衡量。二是数据结构复杂。类型多样,呈现多元化、非结构化特征,如虚拟技术产生的虚拟数据中心数据,以文本、图像、声音、影视、超媒体等形式的非结构化数据等。三是数据处理难度较高。对数据的采集方式、传输方式、存储安全提出了更高的要求,也加大了数据的分析难度和管理难度,传统的手工处理方式和一般的软件工具在规定的时间要实现整个过程的处理是难以实现的。 (二)大数据技术 1.大数据采集技术。大数据采集和传统手工数据采集有着本质的区别,根据采集与被采集双方的网络架构情况,可以分为软件接口方式、数据库接口方式和底层数据直接交换方式等。 软件接口方式一般采取现场采集方式进行。通过与被采集对象软件接口标准相容的采集软件与被采集数据库建立连接,现场采集所需数据,然后经过建立中间表转换成采集方所需的有用数据形式。此种数据采集方式类似于传统意义上的手工现场数据采集,只不过在数据采集的方法上产生了变化。 数据库接口方式一般以远程采集方式进行。这种方式是采集方与被采集方以因特网、内部专网或政府政务外网等方式建立网络连接,采集方事先在被采集方数据库安装数据接口软件,通过该软件接口的访问权限可直接访问被采集单位数据库从而实现数据采集。 底层数据直接交换方式是指通过引擎软件或仿真技术对被采集对象的底层数据交换进行侦听,对目标软件客户端和数据库之间的网络流量进行分析,从而采集或自动写入所需数据方式。 2.大数据存储技术。大数据存储技术是充分利用因特网和云计算技术来实现安全、大容量存储。一是以太网硬盘存储,即采取以太网连接的动能硬盘形式,数据直接经过以太网接口进而存储到硬盘中,精简了数据到硬盘之间的传输环节,且其存储容量和性能比现有的硬盘高达四倍。二是云端存储,即通过专业的服务商建设云存储中心,采用大量的专业服务器来存储数据,数据客户与云存储中心通过网络连接,通过权限访问、下载和使用数据的方式。云存储中心不仅具有高容量和高扩展性,而且数据安全得到了保证。 3.大数据分析技术。大数据分析技术是通过大数据分析工具和分析方法对获取的数据进行计算进而实现预测分析、并行计算、数据仓库、可视化分析等。预测分析是指通过计算、指标分析、比较分析、趋势分析等分析方法估计、推算未来结果或发展趋势的一种分析技术,为决策优化、预报模拟等用途提供支撑信息;并行计算是通过问题分解协同解决大型复杂问题的方法,即把同一个问题分解成若干组成部分,每个组成部分均由一个独立的处理器来并行计算,这样多个处理器并行运行协同求解同一问题,从而提高处理速度和效率;数据仓库是联机数据分析和多维数据挖掘系统,即为了便于让企业了解整个数据全貌和进行多维分析和处理而建立的关系型数据库决策支持系统,能够帮助决策者快速地从大量的数据中挖掘出有价值的信息,构建商业智能;可视化分析是指以简单、直观的图形化、图像化的形式呈现给用户,直观地展示数据,让数据说话,让观众听到结果。