大数据审计平台的构建与实施方法

作 者:

作者简介:
叶苗苗,徐四星,湖南理工学院经济与管理学院

原文出处:
财政监督

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2020 年 12 期

关 键 词:

字号:

      目前审计的主体活动是财务报表审计,在缺乏相对稳定并可直接利用的大数据审计平台下,审计数据大部分源自被审计单位会计信息系统产生的财务数据,有限的审计数据以及人工占主导的审计方式制约着审计范围、审计方法、审计技术等的应用。大数据技术的进步与创新,突飞猛进的多源、异质审计数据的出现,对审计领域产生深远影响,直接推动着审计行业的发展和变革。面对多变与更加复杂的审计环境,审计人员只能借助数字化审计平台,转变审计工作模式来化解当前遇到的审计瓶颈,大数据审计平台构建应运而生。

      在大数据审计平台的构建层面上,学术界也提出了各自建设构想。设计一套合理的“云审计”平台系统,技术是关键因素,将ETL、数据仓库、联机分析处理、数据挖掘、智能引擎和SOA服务等关键要素进行分解集成,可以使得大数据审计平台有效运作(赖丽珍,2017)。大数据审计平台是一个总平台,具体可以分解为采集、预处理、分析和可视化四个服务层平台,每个平台的运行机理、使用的审计模型和计算机技术都是支撑平台运作的核心要素(刘国城,2017)。随着机器学习分类算法、物联网、区块链等技术的不断进步,大数据审计平台的建设,需要从“技术”层面实现突破,增强审计平台的适用性,被更多的审计师运用,从而提高审计的效率和效果。

      二、审计数据管理平台的构建与实施

      审计数据管理平台在大数据审计应用中作为前端系统,集审计数据采集、抽取、转换、加载和存储管理于一体,通过对审计结构化数据、半结构化数据、非结构化数据的整理和标准化工作,完成并用于支撑数据分析和审计作业的基础资源数据库搭建工作。关于审计数据平台的建设,研究者们提出了自己的设想。搭建云审计平台的基本架构,构建中心数据库,从基础设施层、平台服务层、平台应用层、客户端服务层、安全审计平台、外部应用接口六个方面作为突破口,形成协同审计模式,数据库的范围涵盖审计财务业务数据、审计综合信息数据库、审计专家经验数据库、法律法规数据库等(魏祥健,2014)。完善数据中心库的建设,需要拓展数据分析方式,探析审计全覆盖的工作机制(付忠伟、黄翠竹,2015)。各位学者的研究重点不同,但是总体上都响应审计署金审三期工程的建设,支持搭建审计数据平台。

      (一)数据采集

      在审计领域,随着射频识别技术以及网络传感技术的发展,企业内部以及企业外部的审计信息,正持续以指数级数增长。迅速增加的审计信息离散储存在不同企业内,信息集成度低、交互速度慢,审计取证难度大增。大数据、云计算、分布式系统、云存储、区块链等技术的日益成熟,为审计信息采集提供了新机遇。

      审计信息涵括被审计单位已经量化的年度审计报告等财务数据、业务数据、管理数据和预测数据,还涵盖许多未量化的内控制度、工作报告、电子邮件、资产评估/变更/转让文件、社会媒体数据、凭证、会议记录等非结构化的数据。不同结构的数据,采用不同的集成方式。对于量化的结构化审计数据,审计主体遵循审计数据接口标准,应用自然语言处理(NLP),运用AO采集、PYTHON、数据库摘取等技术直接从被审计单位提取信息。非结构化数据呈现形式多样,包括Word、Excel、PDF、PPT、TXT、网页、社交媒体等多种文本格式,审计主体可以借助第三方Flume平台采集数据,Flume平台是高扩展的开源性数据采集平台,支持任何格式的分隔符文件以及各类原协议。利用Flume平台,对接不同公司的财务管理系统,收集大体量的可理解数据,实现数据无障碍采集,提升数据采集效能。

      (二)数据抽取、转换、加载

      数据抽取、转换、加载过程是搭建审计数据管理平台的重要环节。从被审计单位采集的数据呈现异构型、动态化和分布式的特征。开展大数据审计业务要求数据环境良好、结构稳定,因而需要对分散、零乱、标准不统一的源端数据进行抽取、清理、转换和装载,最终形成便于审计人员实施大数据审计作业的基础数据库。

      遵循国家审计数据规划、计算机审计方法体系等数据交换标准规范,借助DataStage,Oracle Warehouse Builder等ETL工具,结合SQL脚本方式实现数据ETL过程。技术上,采用DataStage工具从元数据库中读取Oracle、SQL SERVER数据库文件、EXCEL、TXT等文本文件以及音频、视频等影像资料,集中不同数据源的数据,修补不合理或者不完整的数据,过滤、筛选重复或过剩的数据,提升数据质量,减少数据偏误。数据的转换主要包括表连接、合并、排序等,Data stage工具通过调用功能组件Join、Merge、Sort等将非结构化数据转换成可供审计人员直接使用的标准表。按照标准化规则进行连接、去重和转换后形成的标准表数据,融合SQL·Loader、并行式数据加载等相关技术,加载到数据仓库系统,进行储存。

      (三)数据存储管理

      数据存储管理平台分设元数据库、数据仓库、审计资源库、审计项目库四个子模块,分别存储历史数据、从被审计单位采集的经过ETL加工后的原始数据、及时更新的审计标准、审计案例、金融数据等行业经济数据以及审计作业过程中形成的审计工作底稿、审计报告等业务数据。这些数据以结构化、半结构化、非结构化的形式呈现。核心数据存储技术有IDE、SAS、SAN、DAS、HDFS等,其中,Hadoop平台中的HDFS分布式文件系统具备组件并发、低成本以及组件的独立故障等优势,被大多数信息化的平台用以存储文件系统中的数据。Hadoop平台还包含很多服务器,这些服务器同时给多用户提供服务,并支持多个审计任务同时进行,数据在多用户之间没有有效隔离,数据可能被非法访问和篡改,审计数据安全系数受到质疑。

相关文章: