基于数据仓库技术的大数据审计方法研究

作 者:

作者简介:
李佳正,北京大学软件与微电子学院

原文出处:
中国注册会计师

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2022 年 05 期

关 键 词:

字号:

      近年来,大数据技术的发展和广泛应用给国家经济社会带来了深刻的影响,也给审计工作带来了新的机遇。2014年《国务院关于加强审计工作的意见》明确指出“探索在审计实践中运用大数据技术的途径,加大数据综合利用力度,提高运用信息化技术查核问题、评价判断、宏观分析的能力”。在此背景下,学术界和实务界关于大数据技术在审计工作中的应用展开了广泛的研究。刘星等(2016)阐释了大数据审计的内涵,并提出了推进大数据审计工作所面临的困难与挑战。陈伟等(2017,2018)探讨了网络爬虫、本文挖掘、数据可视化技术在审计领域的应用,以及电子数据审计方向面临的机遇与挑战。刘国城等(2019)基于数据科学理论,论述了大数据审计的总体流程。

      作为大数据技术的核心架构,数据仓库承载着整个业务过程全链路的数据(王珊等,2011)。随着我国经济的快速增长、上市公司规模的逐渐扩大、业务过程的逐渐丰富,审计证据的数量也迅速增长,类型和来源渠道也变得愈加多样化。然而,在大多数审计工作中尚未建立起覆盖整个审计业务流程的数据仓库,这极大地限制了大数据技术在审计应用中的效果,难以发挥出大数据技术的真正潜力。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合(William H.Inmon)。利用数据仓库对审计数据进行有效的组织、存储,对于规范审计流程、提高审计效率具有重大作用。因此,本文拟立足于审计理论与实务,基于数据仓库的设计思想,结合当前大数据在审计以及互联网领域的应用,研究基于数据仓库技术的大数据审计方法。

      一、审计数据的特点和应用现状

      审计数据的来源十分广泛,既包含被审计单位的账簿、报表、电子数据表这些会计信息数据,也包含分析师报告、与竞争者的比较数据等其他的信息数据。这些审计数据之间有着复杂且密切的联系,需要借助大数据手段对这些数据进行组织和加工,以实现数据利用效率的最大化。

      在建设数据仓库之前,审计数据往往散落地存储在事务所各个审计师的电脑上,甚至一些纸质版审计证据未建立电子数据存档。当一个复杂的审计项目涉及到跨业务、跨小组合作时,这样的审计数据组织方式会带来以下几点问题:(1)审计师难以高效率获取到指定主题的审计数据;(2)数据落实情况和计算口径不一致,缺乏可比性,难以整合;(3)缺乏审计数据收集和加工的标准化流程,数据质量难以保证;(4)审计师大多通过本地Excel操作数据,难以处理大规模的数据量,也不便于进行数据权限的控制。

      二、审计业务的数据仓库设计

      与传统数据库的组织方式不同,数据仓库一般通过维度建模的方式来组织数据表。维度建模过程主要有四步:确定业务过程、确定粒度、确定维度、确定事实。对于审计业务,维度建模过程见表1所示。

      

      根据维度建模思想组织好数据表之后,通常还需要进行数据仓库的分层,对数据仓库进行分层有助于更加清晰地把握数据的组织结构、追踪数据血缘、减少重复开发、将复杂问题简单化,实现以空间换时间的目的,提高数据存储组织、处理和查询的效率。

      在大数据的实务领域,通常将数据仓库由下至上分为明细数据层(ODS层)、基础层(BAS层)、事实层(FACT层)和主题层(TOPIC层),对于审计数据仓库,可以设计如图1所示的数据仓库分层。

      ODS层中主要存储审计业务过程中得到的原始数据,例如被审计单位的账簿和凭证中所记录的经营活动发生金额、被审计单位的财务报表、被审计单位内部控制数据、分析师报告数据、通过网络爬虫等手段得到的有关被审计单位的数据等。它的主要功能是积累和保存历史数据。

      BAS层会对ODS层的数据进行适当的清洗、维度补全和整合工作。它的主要功能是保证数据的质量,及时响应审计业务的变动,避免频繁更新数据仓库的数据处理逻辑。

      FACT层会基于维度建模的思想,根据审计业务的特点,整合BAS的数据表,形成审计业务的事实表,如被审计单位的经营活动事实、进行的审计程序事实等。它的主要功能是提高审计人员查询数据的效率。

      

      TOPIC层会根据审计人员的个性化数据分析需求,对某一专题的数据进行整合,如被审计单位的会计数据主题、被审计单位自身画像主题等。它的作用是满足使用者个性化分析的需求。

      三、基于数据仓库技术的审计大数据架构

      在数据仓库建设完成之后,可以高效地利用其中存储的数据对数据进行挖掘、建模、可视化处理等操作,以发现其中隐藏的数据模式、偏差、不一致等信息,从而获得进一步的审计证据,提高审计质量。因此,在数据的来源、数据质量的维护、大数据存储与处理、数据的查询、数据可视化、数据挖掘等方面,审计数据仓库还需要其他工具和算法的配合,才能最大化发挥它的作用。

相关文章: