“云审计”平台是一个实现各类审计信息数字化,促进信息交互和共享,使审计资源得到充分优化利用的综合性平台。本文从数据采集转换、数据存储管理、多维数据建模、数据分析挖掘、审计业务管理、在线函证服务和信息安全体系七个方面来构建云审计平台系统(见下页图1)。 一、数据采集转换 1.统一的数据交换标准 审计机构必须遵循统一的数据交换标准接口从被审计单位采集数据,如《国家审计数据规划》、《审计数据接口标准》、XBRL(可扩展商业报告语言)等。随着被审计单位的信息化水平不断提高,ERP系统的应用也逐渐普及。非结构化数据交换一直是企业信息系统与审计系统互联互通的瓶颈。近年来,XBRL的应用为企业非结构化数据交换提供了可行的解决方案。2002年以后,财政部、证监会等单位牵头推动了XBRL的发展,并发布了基于《企业会计准则》的通用分类标准,要求在上市公司试行。被审计单位将XBRL与自身信息化工作相结合,可统一企业内部数据标准;而审计机构则能够更高效地采集审计数据,尤其是非结构化的财务数据,更加有利于对非结构化审计数据的线索分析和相关风险评价及应对。 2.数据ETL过程 审计数据分析要求数据环境良好、结构稳定,因而需要对不完整、错误或重复的原始数据进行抽取、清理、转换和装载,即ETL过程,以此确保数据的准确性、完整性和一致性。这是联机分析处理、审计数据挖掘的基础。审计数据ETL过程可以选取SAP Business Information Warehouse、Oracle Warehouse Builder、Microsoft SQL Server DTS和IBM InfoSphere DataStage等ETL图形化工具,配合SQL脚本方式,提高数据ETL的开发效率和灵活性。
二、数据存储管理 1.元数据库 信息化条件下,审计数据越来越向大数据、异构性、动态化和分布式的方向发展。云审计平台建立的元数据库处于数据存储管理体系结构的底层,提供关于数据仓库、非结构化数据管理平台、审计项目数据库和审计资源库等的内容、质量、状况和其他关键属性的描述信息,与所有共享的审计数据资源建立索引联系,然后将它们公布,便于审计数据发现和利用。 2.数据仓库 许多被审计单位的信息系统由多个异构的、自治的和分布的大型数据库构成,给审计机构访问和分析数据带来了挑战。数据仓库将来自多个异构数据源的信息进行复制、预处理、集成、注释和汇总,并重新组织到一个语义一致的数据存储中。大部分数据仓库只存放历史数据,审计数据也是以历史数据为基础;数据仓库和审计数据分析大部分都是面向只读操作,不需要操作事务处理和并发控制,能够支持高性能的复杂的多维查询。因此,云审计平台需要按照汇总和聚集机制,建立面向主题、集成、稳定、时变的审计数据仓库,用以支持自动化审计数据分析和挖掘过程。 3.非结构化数据管理平台 在审计过程中,通过核查企业内控制度、年度审计报告、工作报告、会议纪要、资产评估/变更/转让文件、收发公文、凭证、招投标文件等非结构化审计数据能挖掘出大量审计线索。这些非结构化数据格式包括Word、Excel、PDF、PPT、IXT等多种文件格式。现行的审计软件对非结构化数据管理和分析缺乏有效手段。笔者认为可尝试一种基于元数据和搜索引擎的非结构化数据分析思路。(1)通过元数据定义,建立非结构化数据的元数据基础属性。(2)审计人员可根据非结构化数据的属性查询需要的资料。(3)建立效用良好的搜索引擎。该系统能够通过基于内容、协同过滤或关联规则等推荐算法,为审计人员推荐预测准确度和满意度较高的相关资源。 4.审计资源库 云审计平台为审计人员提供了完善且及时更新的资源库,包括审计标准事项库、审计实施方案模板、审计底稿模板、审计案例、行业指标、法律法规、风险评估指标、上市公司历年财务报告等。2014年中注协推广实施的行业经济数据库即属于审计资源库的范畴,它包含了宏观经济数据、行业数据、公司数据、金融数据及与资本市场密切相关的其他数据等,云审计平台可采用按需购买方式提供公共资源服务,全面支持审计机构从事审计鉴证、管理咨询、资产评估等工作。 5.审计项目库 审计项目库用于存储审计准备阶段、实施阶段和终结阶段全过程的业务管理信息,主要包括被审计单位基本信息、项目计划进度、实施方案、风险疑点、审计证据、审计告警、工作底稿、审计报告、文书档案、人力资源等。 三、多维数据建模 在数据仓库的基础上,云审计将充分利用多维度分析的优势,运用横向多行业数据比对关联,纵向跨年度数据跟踪、深入核查,实现纵横结合、多维度的审计数据分析。多维度分析需要基于多维数据模型和被审计单位的业务内容建立多维数据集,同时以业务性质为基础,定义多维数据集的维度和度量值,其组织模式可以是星形、雪花和事实星座模式。