大数据审计是专业审计主体以大数据为背景,依照特定的规范,运用审计科学与大数据科学的程序与方法,对被审单位的重大财务事项、经营管理活动以及相关资料的可靠性通过大数据取证而实施的一种独立的监督活动。近年来,我国政府对大数据审计建设高度重视。2014年10月,《国务院关于加强审计工作的意见》指出“构建国家审计数据系统,探索在审计实践中运用大数据技术”;2015年12月,两办印发《关于实行审计全覆盖的实施意见》文件提出“构建大数据审计工作模式,适应大数据审计需要,构建国家数字化审计平台”。当前,我国亟需一系列丰富的大数据审计理论对实践进行指导,进而大幅提升审计主体运用信息化方式挖掘问题、评价判断与宏观分析的能力。鉴于此,本文基于审计大数据采集、预处理、分析、可视化等模块,深层次探索大数据审计平台的建设机理。 一、相关理论回顾与分析 (一)大数据审计理论的研究动态 国内关于大数据审计的理论研究主要集中于两个方面:一是大数据对传统审计的影响。大数据技术对审计范围、抽样技术、取证模式、报告方式等方面都产生深远影响(秦荣生,2014;鲁清仿等,2015;魏建祥,2016);二是大数据下审计模式与路径的变革。郑伟等(2016)构架大数据环境下数据审计的模式框架,王崇业等(2017)通过嵌入大数据思维分别提出财务报告审计重构模型。国外有关大数据与审计的关联研究较零散,M Cao等(2015)论述大数据分析如何提升财务报表审计的效率和效用;Helen Brown-Liburd等(2015)分析大数据环境下审计师遇到的挑战,以及如何生成审计证据与整合审计过程。学术界对于大数据审计的文献积累相对偏少。当前大数据审计研究存在的重要问题是研究视角基本停留在社会科学领域,仅就“审计学科”论述大数据审计,基于“数据科学”与“信息科学”等视角阐释大数据审计运行机理的文献较少,且不够深入。在未来,大数据审计理论研究应予基于“工程学”视角,深化大数据技术在审计领域的广泛运用,深层次论证数据挖掘、机器学习、可视化等理论在大数据审计平台中的运作机制,从“技术”层面真正实现“大数据审计”理论研究“质”的飞跃。 (二)大数据审计实务的发展动态 2017年4月,世界审计组织大数据工作组首次会议在南京召开,世界各国在大数据审计工作中都积累了一定的经验。英国在大数据审计分析中重点关注文本挖掘与机器学习的引入。美国通过立法确保审计大数据采集的准确性与可靠性,并在审计大数据分析中广泛应用数据挖掘技术、并行计算方法以及Hadoop、SPSS等软件与工具。挪威运用R/Shiny等开放源代码软件深入开发大数据审计应用程序。泰国基于ppapt等管理工具建立大数据审计应用软件包,并运用访问控制列表保障审计大数据安全。近年来,我国大数据审计实务工作进展有序,但存在数据容量不够大,缺乏对大数据预处理、建模与分析等方面的技术与方法的系统性应用等问题。 (三)大数据审计平台建设的理论分析 大数据审计平台的构建遵循系统论、结构论、协同论与控制论等思想。大数据关键技术涵盖采集、预处理、存储与管理、分析与挖掘以及展现与应用等五项技术层面。大数据审计平台涵盖若干子平台,依照特定逻辑融合于一体。为全方位将大数据处理技术融合于大数据审计平台建设,全视角呈现大数据审计综合平台的设计过程,本文特别选取上述五项技术分类作为理论依据将大数据审计平台分拆为采集、预处理、分析与可视化四个子平台作以研究,其中,存储技术纳入预处理平台之中。确立子平台时,必须基于细节,深层次、系统性地发现特定审计大数据对象的内在本质与逻辑规律,熟悉其任务需求。只有这样,才能做好相关子平台的流程分解与功能分解,才能科学确立子平台下的“主题技术库”,有效选定各个子平台的“过程建模群”,进而基于战略层面高效提升大数据审计总体平台建设的质量与水平。本文以交叉学科理论的相互融合为研究视角,通过四个子平台的分拆,强化大数据分析的应用,尝试相应技术在子平台实际需求下的运用,力求以“应用技术群”为轴心,丰富不同建模技术之间的比较分析,有效推进大数据审计实务的流程化、抽象化与智能化。 二、审计大数据采集平台的建立与运行 大数据时代,审计数据采集渠道广泛延伸,主要涵盖:互联网平台下的媒体资讯、门户网站、搜索引擎以及社交网络等数据;被审单位货币性数据,以及经营战略、技术研发、社会关系、治理能力、组织环境等一系列非货币性数据;审计主体内部的经验数据、业务数据、管理数据以及预测数据;其他渠道,如日志数据、传感数据、经济数据、行业数据、政策数据,等等。审计大数据并非上述渠道的散乱式获取与机械化堆砌,而是在特定逻辑框架下的指导性定域与有机化融合。图1中,审计署关于审计数据工作“五个关联”要求为审计大数据采集提供了科学的指导,提供了审计大数据采集的针对性、目的性、关联性与时效性,避免了数据全范围采集,减少了数据过载与人力耗费。基于审计层面的大数据采集技术有很多(图1)。对于结构化与半结构化审计数据的采集,可以运用AO、Oracle、SQL Server等技术。此外,Facebook、Apple等公司分别开发Scribe、iOS与Chukwa等数据采集工具,审计主体可以基于数据采集的功能需求、设计策略与应用环境予以改进,建立适用于自身的非结构化数据采集技术方案。 过程建模是审计大数据采集平台构建的关键环节,它依托于Hadoop、HBase以及RDBMS等基础平台,受数据采集标准与规范所约束,并寓于数据采集下技术工具、单元分布与平台应用等支持模块之中。审计大数据采集建模主要包括:①传输。审计主体可以运用Sqoop工具建模,在postgresql、mysql等数据库与Hadoop等系统之间实现数据互动,在Hive、HBase与RDBMS之间进行数据传递。②接入。数据接入的作用是数据缓冲,主要解决数据采集与预处理的速度非同步问题。审计主体可以利用Kafka系统同步接入浏览与搜索等有关于网络的所有动作流数据,同时执行有关于数据接入的上线处理、实时处理与离线处理。现实中,有许多成熟的数据采集建模平台可供审计主体借鉴,如Splunk、Flume、Fluentd与Logstash等,其中,Splunk平台通过Search Head进行数据的聚合与搜索,依托Indexer执行数据的提取与索引,运用Forwarder实现数据的收集、变形与发送;Flurne平台支持任何格式的分隔符文件,支持Netcat、Thrift、Avro等各类源协议,支持审计流数据源动态传输实时数据至HBase或HDFS之中,是高扩展的开源性数据采集平台。