在各行各业业务开展过程中,产生并积累了大量的过程数据,记录业务的客观事实及诸多属性。这意味着审计人员面对的审计数据不仅量大,更多的是数据更新频率快、种类多、来源广。笔者在某收费中心审计调查项目实施过程中多法并用,实现了海量数据统计工作的直观、联动、高效结果展示。本文拟对该项目的审计思路及方法进行总结,以供同仁参考。 一、问题描述 审计调查项目需要统计某收费中心自收费以来(共68个月)收费站点通行情况及费用征收情况,并对该中心收费方式、年票制两种收费方式进行比较,做出客观的评价。目前收费中心业务系统的后台数据库为Oracle11g,其数据存储量在4993.52TB,接近5PB,按照每天50万条通行记录估算,需要计算的数据量在10(50×30×68×10000)亿条以上。而目前市级审计机关的有效数据处理能力为千万条记录、TB数据量级别。如何利用审计有限的处理、存储能力,在有限时间内高效完成上述统计,成为摆在项目实施过程中的一个实实在在的难题。 二、方法、工具的选择 经过讨论分析,项目组放弃了由路桥收费中心进行全部计算的思路,因为一旦交给被审计单位提供统计结果,审计组不能获得过程数据,掌控不了计算细节,无法保证结果的客观性,失去审计的独立性。因此,审计组选择了分工协作,多方法、工具并用,完成海量数据的统计工作,同时保证审计的客观、独立。 我们采用了MS SQL Server和Excel两种软件。 (一)MS SQL Server的运用。虽然该软件数据处理能力很强,但数据展示能力则相对有限:一方面因受数据库的第一范式的约束,每一个字段都是不可再分的,即不能出现合并字段以显示两个或多个字段之间的类属关系;另一方面数据查询结果也是相互独立的,语意上存在主次关系的查询无法展示出其结果之间的主次关系或层进关系。 因此,在数据结果集的数量粒度细化后依旧很大,或是结果之间不存在主次关系时,我们选择MS SQL Server来展示结果。 (二)Excel的运用。一般结果在万条记录的数量级时,我们选择Excel来展示数据:字段比较简单时可以选择透视表来展示结果的主次关系;若是字段比较复杂,或者对结果有多层次关系时,可以使用合适的函数完成数据由明细逐步汇总的数据展示。 使用Excel展示数据时,首先要设计好明细数据的格式,尤其是表头,通过合并单元格完成同一类属性的包含关系,便于关系理解与数据展示;其次要了解并掌握相关函数的使用方法,如IF、IFNA、IFError、Sum、SumIFS、SumIFS、Match、Address、INDIRECT等;第三,要能够理解Excel中绝对定位、相对定位两种方式。 三、运用流程 为快速、有效、正确完成海量通行信息的统计任务,审计组讨论后采用如下任务处理思路。 (一)以统计目标为导向,认真了解业务关系。 围绕统计目标,适度扩充范围,咨询被审计单位技术人员业务数据之间的关系,尝试编写与目标相关的基本语句,或参考被审计单位技术人员提供的语句,重点关注数据的来源、表之间的对应关系以及重点字段的含义,以加深对业务关系的了解与掌握。 (二)合理分解统计任务,降低数据处理的量级。 根据掌握的业务关系,对统计目标做合适的粒度细化,借助被审计单位的处理、存储条件,先由被审计单位完成基础统计工作,审计组随后使用基础统计结果,即中间数据开展后续分析统计工作。粒度细化的处理目标,一是从数据数量级而言,中间数据要低于原始数据3个以上的数量级;二是要保留有足够的细节信息,便于结果的多重利用;三是统计语句要双方共同认可。在获取中间数据时,注意并行数据处理,以提高执行效率。 (三)获取并还原中间数据,灵活使用细粒度中间数据。 依据统计目标,分步骤灵活进行数据的基础处理:以业务需求为中心,可以使用视图完成数据预处理实现数据的层次关系,或完成字段到数值的转换以实现属性的归并,或是完成数值到字段的转换以实现属性的扩充;可以使用存储过程或函数完成复杂逻辑计算;可以创建合适的索引以提高计算速度…… (四)根据数据量选择工具,展示数据结果。 审计主战场处理后的数据,并非都是最终的结果或形式,为了更好地展示数据,有时可用合适的工具分层次逐步展示。 四、方法运用步骤 (一)了解业务关系 该收费中心的站点共有10个,通行车辆总体上分为有卡车、无卡车两大类,其中:有卡车按照相关车辆参数可以分为2、3、4、5、6、7共6种车型;无卡车分市籍无卡车、外籍无卡车两类。针对有卡车,ETC收费标准分为次票、年优惠票两种类型;无卡车需要通过人工核定车型后按照有卡车对应车型的次票登记费用,故车型未知的无卡车,其应收金额需按照最低收费标准进行折算。 收费中心的业务系统使用Oracle数据库,基础表中包含车型(cx)、站号(zh)字段,也有记录车辆通过站点的交易时间(jysj)、车辆通过后计算应收金额的记账时间(jzsj)、车辆收取通行费用的计算时间(jssj)等字段。 (二)降低数据处理的量级 统计通行及收费数据任务的关注点是总数、总金额,因此合适的粒度细化方案是从业务系统中每辆车每次通行的明细数据,转换为站点、月份、车型的统计数字。这样处理数据的数量级从10亿条的级别,降低至万条级别,同时又有效保存了站点、月份、车型等说明通行情况的关键信息。