在大数据审计采集、预处理、分析和可视化等流程中,大数据审计采集是首要环节,只有将数据进行集中收集,并积累到一定数量,才能由量变引发质变,进而找到不同领域、不同行业、不同层级数据之间的关系,这也直接决定了大数据审计在后续阶段所能提供的价值。针对大数据来源的不同,本文将大数据审计采集技术体系的构成分为四类,即数据库采集技术、系统日志采集技术、感知设备采集技术以及网络数据采集技术,并在各采集技术中引入实务应用,以期加速推进大数据审计采集技术体系的智能化建设与高质量发展。 一、数据库采集技术的分析 传统的审计业务往往会应用关系型数据库,如Oracle(甲骨文数据库)、MySQL(AB公司开发的关系型数据库管理系统)、Microsoft Access(微软开发的关系数据库管理系统)和DB2(IBM开发的关系型数据库管理系统)等数据管理系统,以此来存储被审计单位的各项数据。近年来,审计主体通常会使用NoSQL(非关系型的数据库)、HBase(分布式的、面向列的开源数据库)、MongoDB(基于分布式文件存储的数据库)等数据库采集、存储被审计单位的数据,并应用高端采集技术,如ODBC(Open DataBase Connectivity,开放数据库互联)技术、审计接口技术等,以此来连接审计主体和被审计单位的数据库,完成大数据审计的采集工作。 (一)ODBC技术的应用 ODBC技术是通用的审计大数据采集方法之一,其主要涵盖应用程序、驱动程序管理器、驱动程序和数据源。应用程序层通过采用ODBC接口,可以实现与数据源的连接和会话,并向数据源发送结构化查询语言(SQL)请求,再对结果定义数据格式。驱动程序管理器主要是为了装入驱动程序,以便于进行ODBC的初始化、提供参数以及次序验证等操作步骤。驱动程序是一种动态链接库,可以达到使数据源和ODBC函数交互的目的,在用户有需求时,转换相应的格式,并将结果返还给应用程序,发现运行错误的格式,也会以标准代码的形式进行返回。数据源则是由审计主体在数据库中存储的数据、数据库管理系统、网络环境以及相关的操作系统所组成。 ODBC技术目前被广泛应用于计算机辅助审计业务中,作为连接审计主体和被审计单位数据库的公共接口。审计人员借助ODBC技术可以轻松访问被审计单位的审计信息系统,并根据用户的不同数据需求,启动相应的驱动程序,配置对应的参数,将不同的数据格式转换成审计所需的格式。ODBC技术的优点有很多。首先,由于代码开源,依靠分层机构来运行,所以ODBC有很高的标准性与开放性,程序集成就变得十分轻松;其次,可以实现不同的数据库管理系统由相同代码运行,使得用户程序具备很高的互操作性,C/S(Client-Server,服务器-客户机)架构也因此得到了相应的技术支持,开发与运营维护成本大大降低。计算机辅助审计也是一种基于审计大数据采集业务的审计方式,相当于将被审计单位的各类数据进行数据迁移,并经过预处理等步骤,把数据转换成对应格式,存储于审计主体的数据库,最后应用分析程序对采集到的审计大数据进行数据分析。持续审计是计算机辅助审计未来的一个重要发展方向,其中,数据库采集技术为审计人员采集数据提供了诸多便利。 (二)审计接口技术的应用 针对审计接口技术应用的业务不同,可以划分为通用审计接口与专用审计接口。通用审计接口有三种实现方式。第一,审计主体可以直接连接被审计单位的目标数据库,采集有用的各种数据,这种审计接口往往只可以读取数据,不具备修改、删除数据的权限。第二,审计主体可以通过联网方式远程采集被审计单位的数据。该方式的原理是把大数据采集与存储相分离,并且增加了大数据采集工作站,审计主体从被审计单位中采集的数据都要统一存放到中间数据库中,由审计人员将所需数据采集到审计服务器中,进一步实现了审计端口与被审计端口的有效隔离。第三,在审计主体采用大型数据库,与被审计单位建立直接接口存在困难时,可以先获取生产转换文件,按照目标的文件格式进行导出,完成大数据审计的采集工作。 近年来,审计接口技术被广泛应用于计算机医保审计中。传统的计算机医保审计方式限制了审计人员的审计线索采集方式,只能局限于使用SQL语言来获取医保欺诈的线索,但是这种方法只能处理标准的结构化数据。然而,随着医疗改革的深入与信息技术的进步,医保的覆盖面逐渐扩大,医保的相关数据也随之逐渐朝着异构化、大规模、非数字化和多样化的趋势发展,进而对审计人员采集医保数据提出了更高的要求。医保数据采集是整个医保审计流程的起点,对不同来源和不同结构的审计数据,运用审计接口技术可以实现数据从非数字化转向数字化、从非结构化转向结构化以及从非标准化转向标准化,不断拓展数据的采集范围,并搭配数据清洗、集成等手段,不断提高数据的采集质量,进而形成医保数据存储仓库,满足后续的审计程序对数据方面的需求。 二、系统日志采集技术的分析 系统日志记录了被审计单位日常系统中关于各种硬件、软件问题的数据,以及对系统运行情况的监控记录,如有关应用程序、系统安全等方面的各种记录。目前日志采集技术被广泛应用于审计业务的很多方面,本部分的系统日志采集技术主要涉及Flume(Cloudera开发的日志收集系统)、Scribe(Facebook开源的日志收集系统)、Kafka(Apache软件基金会开发的开源流处理平台)等技术。 (一)Flume技术的应用 Flume是一种资源收集系统,主要用于收集被审计单位的系统日志等数据资源,在将服务器中的数据收集完成之后,Flume会把这些大数据资源统一集中到相应位置,如分布式文件系统(HDFS)。Flume技术的运行流程分为若干步骤:首先,从云端、脸书、推特等数据生成器中收集各种可用数据,这些数据会被代理(Agent)统一存储到数据收集器中,并需要同审计数据源和数据的接收端进行交互,最后代理(Agent)将汇集到的数据通过多个通道传输到广义存储当中,如Hadoop(由Apache基金会所开发的分布式系统基础架构)、HBase等。