“大智移云物”等新技术的迅猛发展为传统商业环境带来了新的挑战与机遇,产生了大量半结构化和非结构化数据。与此同时,一些大数据信息处理技术正被广泛应用于审计实践,大数据审计相关文献也逐年增加,但大多侧重于大数据对各类审计的影响、审计技术、审计模式、审计平台、审计队伍建设等经验层面,缺乏更为深入的理论探讨。理论研究可以为其他应用研究和实践提供方向指导,也为未来前瞻性研究和实践创新提供理论框架。基于此,本文提出如下四个方面思考,什么是大数据审计?大数据审计有几种类型?大数据审计的模式如何?如何组织实施?现就上述问题作一分析。 二、大数据审计若干理论问题思考 (一)大数据审计概念 数据是信息的表现形式和载体,是一系列或连续或间断的符号,一般认为大数据是大量的难以运用传统计算机软件处理的数据,是指数据的数量级别超过传统数据库软件工具捕获、存储、管理和分析能力的数据集(Mckinsey Global Institute,2011)。大数据具有以下5个V特征,即Volume(数据量大)、Velocity(速度快)、Variety(类型多)、Value(有价值)、Veracity(真实性),包括结构化、半结构化和大量非结构化数据,从类型意义上大数据更多地是指半结构化和非结构的数据,结构化数据可以称为“小数据”。大数据才是现实的真实反映,“小数据”只是现实世界的片面反映,大数据不是现在才有的,只是从计算机处理能力角度来考察,现在才出现了大数据概念,而从人脑处理角度看,大数据始终存在,人脑处理的数据绝大部分都是非结构化数据。 按美国会计学会审计基础概念委员会对审计的定义,审计是一个客观地获取和评价与经济活动和经济事项的认定有关的证据,以确认这些认定与既定标准之间的符合程度,并把审计结果传达给有利害关系的用户的系统过程。所以审计的基本职能是鉴证,即鉴别(比对)、证明,其基本要素包括三方关系(审计主体、审计对象、审计报告预期使用者)、审计标准、审计证据、审计报告,核心是获取被审计单位相关数据和信息并与既定标准信息对比,将结果传递给第三方。我国学者通常从完整审计系统职能上下定义,如认为审计是一种独立的经济监督活动(张光寿,1995),审计是一种特殊经济控制机制(蔡春,1998),审计是治理体系的构成部分(刘家义,2015;郑石桥,2012;商思争,2017)等,无论是监督、控制还是治理,都离不开信息,也离不开信息采集、处理和传输系统,信息的载体就是数据,从数据处理角度看,审计就是一种数据采集、储存、清洗、挖掘和传递系统,当然也应该是大数据采集、储存、清洗、挖掘和传递系统。 实践中,各种大数据审计的项目类型繁杂,文献上的概念界定也各有差异。李成艾、何小宝(2019)认为,大数据审计是指审计人员基于大数据资源,运用大数据思维和方法,进行大范围、多角度数据关联分析,以验证被审计单位经济活动的真实性、合法性、合规性及效益性。王彪华(2020)认为,大数据审计是指由计算机审计人员和业务审计人员运用云计算、数据挖掘、人工智能等大数据审计技术,对与审计事项相关的跨地区、跨行业、跨领域、跨年度的巨量电子数据进行采集、整理和关联分析挖掘,从中把握总体情况,判断发展趋势,发现审计线索,获取审计证据,揭示审计问题的独立经济监督活动。陈伟、居江宁(2017)指出,大数据审计是指大数据环境下的电子数据审计。 从一个泛在理论视角上看,大数据并不是现在才有的,也不一定都是电子数据,且大数据也不一定都用计算机软件处理。所以,可以认为,大数据审计也包括大数据环境下对非电子大数据的审计,可以通过计算机软件进行采集、挖掘、分析、认知、判断和传输,也可以通过肉眼和人脑结合对数据进行采集、分析、认知、判断和传输。但在计算机时代,这种概念是没有意义的,且也不符合大数据的定义和特征。 大数据审计至少是采用大数据计算技术对结构化、非结构化电子数据进行的审计,而且无论信息处理和通讯技术多么先进,特定文化环境的人的自然语言、体态语言、表情语言的含义,仍然需要理解该文化环境的人来获取和识别;数据的清洗、挖掘、分析,呈现的算法、方式、工具也需要人来开发、选择。因此,大数据审计仍然是人对经济活动、管理行为的一种监督、评价和鉴证活动,属于人的管理和控制实践活动,内嵌入社会、企业和市场治理系统,是治理结构和治理体系的构成部分。 (二)大数据审计分类 广义的概念界定外延广,可以涵盖和解释更多类似现象,但是不够严谨,狭义地理解比较严谨,便于深入探讨和推理,但是无法涵盖和解释更多类似现象,容易遗漏复杂现实的中间状态,应把二者结合起来进行分析和概括。根据广义大数据审计概念,可以分为计算机辅助大数据处理方式、联网大数据处理方式和云平台大数据处理方式。 计算机辅助大数据处理方式是通过人工采集或获取非电子数据,然后将人工采集的数据录入计算机,通过本地专业计算机软件进行鉴别、分析的一种处理方式,这种方式处理结果比较准确,但由于软件比较落后,且计算机处理能力有限,所以速度和质量也难以保证,非结构化数据仍然需要结合人脑进行。