网上审计的产生既是客观环境发展的外部要求,也是审计自身发展的内在要求。进入21世纪以来,世界各国政府审计部门都在网上审计方面做了有益的尝试和探索,但是由于缺乏丰富的实践积累和系统的理论指导,网上审计的发展受到了技术瓶颈的制约。如何构建结构稳定、信息丰富、更新及时的网上审计数据中心,成为首先要面对的一个技术难题。 网上审计中,审计人员取得的绝大部分审计资料都是电子数据。不论是被审计单位的财务核算信息、业务管理信息,还是经营决策信息,都记录在电子数据之中。要对被审计单位财政财务收支的真实合法效益进行审查,就必须直接对取得的电子数据进行审计,这一点就如同在手工审计阶段,必须对取得的账簿、报表和凭证进行审计一样。然而,网上审计取得的电子数据通常是实时的、海量的、零散的和类型不统一的,但电子数据之间存在着一定的联系。在网上审计中不能孤立或者割裂地来利用这些数据,而是要尽力地统一相同类型数据的格式,寻找数据之间的关联关系,把它们作为一种资源很好地组织起来加以综合利用。数据仓库为我们提供了这样一种解决方案。 网上审计中,数据仓库的运用是一个连续的过程,形成了一个有机的系统即数据仓库系统如图1所示。从图1可以看出,网上审计中构建并利用的数据仓库系统分为数据源、数据的存储与管理、OLAP服务器和前端工具四个层次。
1.数据源。数据源是数据仓库系统的基础。网上审计中,按照数据源的不同类型可以把数据分为数值型数据和非数值型数据两种。其中,数值型数据主要来源于被审计单位财务核算和业务管理等信息系统,主要为数据库或电子表格类型文件:非数值型数据主要来源于被审计单位经营决策信息系统、历史档案和外部单位,主要为被审计单位的基础资料、会议纪要、收发文件、审计报告、总结材料、业务流程、合同协议、内部控制制度、说明材料、制度汇编、政策法规资料,以及来自于被审计单位之外的查询材料和举报材料等。数值型数据和非数值型数据共同组成网上审计的数据源。下面以企业审计为例,用分布图来说明数值型数据和非数值型数据的分布情况,如图2所示。
网上审计中,数据源的数据主要通过两种途径进入数据仓库。第一,通过预先设置的数据采集接口,自动采集、转换、清理和验证数据,生成审计中间表。这种数据采集方法,充分利用了网上审计中审计对象固定,需要处理的原始数据的结构基本相同,审计的范围和内容也变化不大等特点,由审计人员预先定义好审计中间表的结构,确定数据采集、转换、清理和验证的规则,然后由审计前置服务器根据审计人员设置的调度指令,自动执行数据采集过程并形成审计中间表。第二,审计人员手工采集、转换、清理和验证数据,将数据纳入审计中间表。这种数据采集方法与常规审计中的数据采集方法类似,从数据的采集到数据验证,都需要审计人员手工操作,而且在网上审计中,手工采集的数据,要纳入网上审计的资源平台,作为审计中间表的一部分。 在网上审计的实践中,上述两种方法往往结合起来运用,要针对不同的数据源和不同的数据格式,采取不同的数据采集方法。对于数值型数据主要采取第一种方法,而对于非数值型数据则主要采取第二种方法。 2,数据的存储与管理。数据的存储与管理是整个数据仓库系统的核心。在此过程中,存储和管理的是数据仓库和数据集市。网上审计中,数值型数据通过数据采集接口自动进入数据仓库(基础性审计中间表);非数值型数据往往通过手工方式进行采集、转换、清理和验证,然后纳入数据仓库。不同类型和格式的电子数据通过采集接口或手工转换进入数据仓库,主要包括了电子数据的采集、转换、清理和验证等过程,最终将电子数据组织起来,作为一种共享资源加以利用。数据仓库还可以按照不同的审计分析主题进行组织,形成数据集市(分析性审计中间表)。数据仓库和数据集市均为电子数据的集合,这些电子数据来自于不同的数据源,其原始类型和格式各不相同。为了便于共享利用,有必要制定一个标准,来限定数据仓库和数据集市中电子数据的格式。当然,不同的人可能会制定不同的标准,只要在同一个网上审计项目中执行同一个标准就行。下面就电子数据标准举一个简单的例子,见表1。
数据仓库往往是要能够提供不同的应用,所以一般应采取数据仓库—数据集市的结构。在这种结构下,数据仓库主要满足数据整合、数据清理和通用性审计分析主题的需要,数据集市主要满足专用性审计分析主题的需要。这种结构的优点是:一是数据仓库不仅为OLAP提供数据源,还为数据仓库的查询处理,数据挖掘的应用提供数据基础。同时数据仓库还充当网上审计的数据资源平台。二是数据集市是直接为OLAP服务的,在建立数据集市的过程中,可以自由地根据分析的需要对数据结构和内容进行加工,而不必担心损害数据仓库的通用性。只建立数据仓库或者只建立数据集市的结构很难在专用性和通用性上取得平衡。三是数据集市的构建可以完全不考虑最初数据源的结构和内容,而直接面对的是结构优良,数据质量良好的数据仓库。数据仓库在数据源和数据集市之间形成了一个缓冲,大大减少了数据源的变化对数据集市的影响。最后是先建立数据仓库,再建立数据集市,避免了直接在数据源上建立数据集市所带来的数据不一致和重复抽取等问题。