审计数据采集是大数据审计的起点和基础。随着审计法及相关法规的深入实施,已经很少有审计对象拒不提供数据的情况出现。审计数据采集面临的主要矛盾也由“取不到”,转变为“如何取”。 “如何取”既有程序上的含义,如审计通知书、数据获取协议等,也有技术上的含义,包括以何种格式、采集哪些数据等。 本文主要从技术角度阐述审计数据采集所面临的主要困难,即审计信息的差异性问题;并论述了标准化是审计数据采集的必由之路,进而对如何开展标准化工作提出一些浅见。 审计数据采集面临的首要困难是信息的异构性 审计数据采集在大数据审计过程中的基础地位,决定了它既要“瞻前”也要“顾后”。“瞻前”是指,数据采集过程中要考虑审计对象的信息化建设情况,确保可以有效地获取数据。“顾后”是指,要考虑采到数据后如何便于开展审计分析工作,提高数据的可用性。 从这一要求看,审计数据采集工作目前面临的首要技术困难是审计信息的多样性。计算机领域一般将这种多样性称为异构性。主要体现在:一是数据库的多样性。审计对象的数据库既包括SQL Server、Oracle、DB2、Sybase等主流商业数据库,也有MySQL、Access等小型数据库,以及GDB、Neo4J等特定领域的数据库,一些审计对象甚至还在用TXT、Excel管理的财务信息。二是数据库设计的多样性。即使是属于同一领域的审计对象,也可能使用不同的数据库设计模式。例如,不同省市的财政信息系统就存在巨大差异。即使是所经办业务一致、信息系统开发商一致,其底层的数据库设计也不尽相同。简单如“人员编号”,有的系统将其命名为“rybh”,有的命名为“PersonID”或“PersonNO”,复杂如表设计和表间关系设计的差异。三是不同领域信息间的壁垒。同领域信息间尚且差异明显,不同领域的信息间则更难贯通。例如同一审计对象在工商数据中用工商执照号码作为唯一标识,在税务则用纳税人识别号,在电力则用用电户号码。虽然国家已经开展三证合一的标识方式,但现有系统仍未实现全局标识的统一,导致不同领域的信息各成体系,很难相互融合。 审计信息的异构性对获取和利用审计信息带来了巨大挑战。以往的审计工作只面对一个或几个审计对象。此时,不同对象间的信息差异不会产生大的影响。但是,当前以全国性审计大项目和审计全覆盖为代表,大范围且日常性的审计数据采集工作需要同时处理成千上万个审计对象的大量且差异性化的信息。很明显,传统的针对少量对象的工作方式已不可行。这是因为,审计人员不可能了解所有审计对象信息系统的底层设计,即使是一个小的、特定的领域也很难做到。除非,如国税、海关等部门领域内一般已实现了全国信息系统的统一。一些审计机关仍然依靠堆积大量审计人力整合异构信息。这种做法在一隅之地、应一时之需还是可行的,也会取得一定的审计效果。但放之全国,去满足全覆盖式的审计分析,则是一条“死”路。 而从当前的审计实践看,数据库设计模式的异构性所带来的挑战最直接、最普遍,但是破解领域间信息壁垒的难度最大,这也是当前大数据科学研究领域的核心问题。 标准化是新时代审计数据采集的必由之路 两千多年前,中国人就已经用“车同轨、书同文”解决了不同地域间的巨大差异,以标准化奠定了中华民族大一统的基础。大数据时代,中国审计也只能依靠审计数据标准破解不同审计对象间的数据差异,奠定国家审计大数据整合的基础。 制定能够满足审计目标,并可以被多样的信息系统所支持的数据采集标准,就成为破解审计对象信息异构性的关键。一般理解,审计数据采集标准是对审计数据采集的内容、格式的规范化约定。可视为审计对象与审计人员之间的一种约定或协议。标准实施后,审计人员将以约定的方式采集审计对象指定内容的数据,而不再考虑审计对象的数据原来以何种方式进行管理,并以标准化的数据结构为基础开展统一的审计分析。这就有效解决了审计对象数据的异构化问题。 在这一方面,中国审计机关已经有了较为成熟的经验,取得了丰硕成果,形成了依托审计实践,先形成审计行业标准,择优颁布并实施国家标准的较为完善的审计标准化生态体系,达到了世界先进水平(参见下页图1)。审计署在金审工程一期和二期阶段颁布了51个审计实务公告,涵盖了计算机审计的基本规划、建设标准、软件工具的规格说明、审计数据规划和审计方法体系以及计算机审计的实施指南,形成了较为完备的政府审计行业标准。审计机关将这些行业标准中最具普遍使用价值和较为成熟的作为国家标准,并广泛邀请社会各相关方参与制定和实施工作。早在2004年,审计署就和财政部、SAP、Oracle、用友、金蝶等国内外知名ERP厂商制定了《信息技术会计核算软件数据接口》(GB/T19581),规定了会计核算软件数据接口的具体内容和文件输出格式要求。2008年2月,国家标准化管理委员会成立了全国审计信息化标准化技术委员会(SAC/TC341)。2010年,组织对GB/T19581进行了体系扩展和内容更新,形成了《财经信息技术会计核算软件数据接口第1部分:企业》(GB/T24589.1),之后相继扩展到行政事业、总预算会计和商业银行等领域。截至目前,全国审计信息化标准化技术委员会(SAC/TC341)已制定、发布12项国家标准,涵盖企业、行政事业单位、财政预算、商业银行、建设项目投资等多个领域。据统计,上述国家标准已经在国内审计实践中被使用超过百万次,得到用友、金蝶、浪潮等国内知名ERP厂商和SAP、Oracle等国外知名ERP厂商产品的支持,国内市场的覆盖面超过90%,产生了良好的社会效益和经济效益。