浅析大数据审计采集技术体系的构成及其应用

收藏 |打印|下载word |下载pdf

作者：

刘国城/李君/尤建...

作者简介：

刘国城，李君，尤建，阙圣贵，南京审计大学会计学院，海安市审计局

原文出处：

中国内部审计

内容提要：

期刊代号：V3

分类名称：审计文摘

复印期号：2023 年 03 期

关键词：

字号：大中小

在大数据审计采集、预处理、分析和可视化等流程中，大数据审计采集是首要环节，只有将数据进行集中收集，并积累到一定数量，才能由量变引发质变，进而找到不同领域、不同行业、不同层级数据之间的关系，这也直接决定了大数据审计在后续阶段所能提供的价值。针对大数据来源的不同，本文将大数据审计采集技术体系的构成分为四类，即数据库采集技术、系统日志采集技术、感知设备采集技术以及网络数据采集技术，并在各采集技术中引入实务应用，以期加速推进大数据审计采集技术体系的智能化建设与高质量发展。

一、数据库采集技术的分析

传统的审计业务往往会应用关系型数据库，如Oracle（甲骨文数据库）、MySQL（AB公司开发的关系型数据库管理系统）、Microsoft Access（微软开发的关系数据库管理系统）和DB2（IBM开发的关系型数据库管理系统）等数据管理系统，以此来存储被审计单位的各项数据。近年来，审计主体通常会使用NoSQL（非关系型的数据库）、HBase（分布式的、面向列的开源数据库）、MongoDB（基于分布式文件存储的数据库）等数据库采集、存储被审计单位的数据，并应用高端采集技术，如ODBC（Open DataBase Connectivity，开放数据库互联）技术、审计接口技术等，以此来连接审计主体和被审计单位的数据库，完成大数据审计的采集工作。

（一）ODBC技术的应用

ODBC技术是通用的审计大数据采集方法之一，其主要涵盖应用程序、驱动程序管理器、驱动程序和数据源。应用程序层通过采用ODBC接口，可以实现与数据源的连接和会话，并向数据源发送结构化查询语言（SQL）请求，再对结果定义数据格式。驱动程序管理器主要是为了装入驱动程序，以便于进行ODBC的初始化、提供参数以及次序验证等操作步骤。驱动程序是一种动态链接库，可以达到使数据源和ODBC函数交互的目的，在用户有需求时，转换相应的格式，并将结果返还给应用程序，发现运行错误的格式，也会以标准代码的形式进行返回。数据源则是由审计主体在数据库中存储的数据、数据库管理系统、网络环境以及相关的操作系统所组成。

ODBC技术目前被广泛应用于计算机辅助审计业务中，作为连接审计主体和被审计单位数据库的公共接口。审计人员借助ODBC技术可以轻松访问被审计单位的审计信息系统，并根据用户的不同数据需求，启动相应的驱动程序，配置对应的参数，将不同的数据格式转换成审计所需的格式。ODBC技术的优点有很多。首先，由于代码开源，依靠分层机构来运行，所以ODBC有很高的标准性与开放性，程序集成就变得十分轻松；其次，可以实现不同的数据库管理系统由相同代码运行，使得用户程序具备很高的互操作性，C/S（Client-Server，服务器-客户机）架构也因此得到了相应的技术支持，开发与运营维护成本大大降低。计算机辅助审计也是一种基于审计大数据采集业务的审计方式，相当于将被审计单位的各类数据进行数据迁移，并经过预处理等步骤，把数据转换成对应格式，存储于审计主体的数据库，最后应用分析程序对采集到的审计大数据进行数据分析。持续审计是计算机辅助审计未来的一个重要发展方向，其中，数据库采集技术为审计人员采集数据提供了诸多便利。

（二）审计接口技术的应用

针对审计接口技术应用的业务不同，可以划分为通用审计接口与专用审计接口。通用审计接口有三种实现方式。第一，审计主体可以直接连接被审计单位的目标数据库，采集有用的各种数据，这种审计接口往往只可以读取数据，不具备修改、删除数据的权限。第二，审计主体可以通过联网方式远程采集被审计单位的数据。该方式的原理是把大数据采集与存储相分离，并且增加了大数据采集工作站，审计主体从被审计单位中采集的数据都要统一存放到中间数据库中，由审计人员将所需数据采集到审计服务器中，进一步实现了审计端口与被审计端口的有效隔离。第三，在审计主体采用大型数据库，与被审计单位建立直接接口存在困难时，可以先获取生产转换文件，按照目标的文件格式进行导出，完成大数据审计的采集工作。

近年来，审计接口技术被广泛应用于计算机医保审计中。传统的计算机医保审计方式限制了审计人员的审计线索采集方式，只能局限于使用SQL语言来获取医保欺诈的线索，但是这种方法只能处理标准的结构化数据。然而，随着医疗改革的深入与信息技术的进步，医保的覆盖面逐渐扩大，医保的相关数据也随之逐渐朝着异构化、大规模、非数字化和多样化的趋势发展，进而对审计人员采集医保数据提出了更高的要求。医保数据采集是整个医保审计流程的起点，对不同来源和不同结构的审计数据，运用审计接口技术可以实现数据从非数字化转向数字化、从非结构化转向结构化以及从非标准化转向标准化，不断拓展数据的采集范围，并搭配数据清洗、集成等手段，不断提高数据的采集质量，进而形成医保数据存储仓库，满足后续的审计程序对数据方面的需求。

二、系统日志采集技术的分析

系统日志记录了被审计单位日常系统中关于各种硬件、软件问题的数据，以及对系统运行情况的监控记录，如有关应用程序、系统安全等方面的各种记录。目前日志采集技术被广泛应用于审计业务的很多方面，本部分的系统日志采集技术主要涉及Flume（Cloudera开发的日志收集系统）、Scribe（Facebook开源的日志收集系统）、Kafka（Apache软件基金会开发的开源流处理平台）等技术。

（一）Flume技术的应用

Flume是一种资源收集系统，主要用于收集被审计单位的系统日志等数据资源，在将服务器中的数据收集完成之后，Flume会把这些大数据资源统一集中到相应位置，如分布式文件系统（HDFS）。Flume技术的运行流程分为若干步骤：首先，从云端、脸书、推特等数据生成器中收集各种可用数据，这些数据会被代理（Agent）统一存储到数据收集器中，并需要同审计数据源和数据的接收端进行交互，最后代理（Agent）将汇集到的数据通过多个通道传输到广义存储当中，如Hadoop（由Apache基金会所开发的分布式系统基础架构）、HBase等。

共7条结果上一页12 3 4 下一页全部展开

特派办应关注地方政府决策失误现象

王道通

审计文...2007年第08期
审计管理创新趋势分析

李长水

审计文...2007年第08期
如何对偷税进行审计定性

王茜雪

审计文...2007年第08期
建立军队审计外聘专家咨询制度的框架设计

崔团结

审计文...2007年第08期
审计假设体系存在的问题及重构

于静

审计文...2007年第08期

浅析大数据审计采集技术体系的构成及其应用

相关文章：