伴随着云计算、大数据、物联网、区块链、数据分析与可视化、流程自动化以及人工智能等创新技术在会计、审计和财务领域的广泛应用,数字化信息呈爆发性增长,大数据已成为企业获取竞争优势的关键性基础,也是未来企业提高生产率、创新以及进行价值创造的重要源泉。在对大型组织实施审计的过程中,审计人员虽然可以获取客户组织内、外部的大量数据,但同时也易于被这些数据所淹没,因此系统地挖掘和分析大量数据背后公司的行为特征,特别是准确识别客户可能存在的异常行为和舞弊风险就显得尤为重要。此外,在高度自动化的环境下,财务报告使用者对报告时效性的要求越来越高,这就需要对大量自动生成、即时可访问的海量数据实施持续性审计。为此,审计人员亟须使用新的理论方法和技术工具,实现由传统人工审计到大数据分析的转化,从而进一步拓展审计的深度和广度,提高审计工作效率,提升审计质量和价值。 数据挖掘是指运用专业的工具、技术、模型和方法,对大量无序的数据进行采集、加载、分析和集成,以便从海量数据中发现隐含的、有效的、有价值的、可理解的模式、规则和知识,并对结果加以解释,从而为解决相关复杂决策问题提供依据和辅助支持。舞弊侦测是数据挖掘技术在财务报表舞弊审计中的重要应用,然而其在实际运用过程中面临着一系列挑战。一般而言,当发现某一审计客户存在舞弊行为时,审计人员会面临三方面决策:特定客户的审计计划中应涵盖哪些具体类型的舞弊行为(如收入确认、高估资产、少计负债等)?哪些数据来源(如日记账、系统工作日志、电子邮件等)可以为识别各类舞弊提供证据?采取何种数据挖掘技术(如定向技术或非定向技术)才能最有效地找到潜在的舞弊证据? 为了解决上述三方面问题,本研究在系统总结和梳理审计大数据的本质内涵与特征分类的基础上,明晰了审计大数据挖掘分析与传统数据分析的差异,探寻数据挖掘技术在财务报表舞弊审计中的最佳应用模式,建立了数据挖掘技术应用于财务报表舞弊审计中的整合性框架,以便指导审计人员将相关数据挖掘技术高效地应用于具体审计活动。 二、审计大数据的内涵 (一)审计大数据的定义 近年来,学术界和产业界基于不同的视角,对大数据做出了不同的定义。大数据作为组织中一类重要的信息资产,是与固定资产和人力资本类似的生产要素,对经济社会发展具有重要价值。大数据具有规模性(Volume)、高速性(Velocity)、多样性(Variety)和真实性(Veracity)等技术特征(被称为“4V”特征)。基于大数据资源观视角,可以认为大数据是企业的战略性资源,其来源多样、特征复杂,企业如果能够快速有效地进行大数据分析,并通过直观、可视化的方式获得大数据分析背后隐藏的知识和规律,增强管理洞察力和价值发现能力,那么大数据将成为支持企业管理决策的一类重要资源,具有重要的决策价值。但是,如果企业看不懂或不会用大数据,那么其决策有用性的价值将受限。 对于审计工作而言,通过分析、挖掘发现被审计单位大量交易数据背后隐藏的信息,特别是通过对大量交易数据的统计特征分析、分类、聚类和关联特征分析,能够有效识别潜在的异常交易和舞弊特征信息,从而为舞弊风险侦测、审计风险评估等提供有益的决策支持。 (二)审计大数据的分类 大数据环境下,企业在经营管理过程中会产生各类数据信息,大数据的形式和特征极其复杂,不仅表现在其数量规模大、来源广、形态结构多样,还表现在其状态变化和开发方式等具有不确定性。就审计工作而言,可以从数据来源、数据类型和数据获取三个方面对审计大数据进行分类。 就数据来源而言,大数据环境下审计人员能够获得企业内部众多数据资料,例如:ERP系统、财务处理系统、交易处理系统以及客户关系管理系统提供的交易数据,从企业生产制造设备、各类传感器中采集的生产、仓储、运输等生产运营过程中的业务数据,企业内部办公系统中的电子邮件、公文处理和会议档案等数据。同时,审计人员还能从外部网站及社交媒体平台中获取包括对被审计单位的各种分析评论、网络舆情以及分析研究报告。就数据类型而言,审计人员不仅能够获得传统的数值型、文本型数据,还能够获取诸如图像、音频、视频等多种类型的数据。就数据获取而言,审计人员可以从物联网平台、ERP系统、各类传感器、网络平台和社交媒体以及视频监控设备上获取数据。对于上述多种类型、多种来源、多方采集的多源异构的海量数据,需要建立数据分析处理模型,以提取出相关信息、识别潜在关系、建立内在关联,有效识别数据背后隐藏的规律性认识,增强数据洞察力,从而为相关舞弊识别、风险评估等审计决策提供依据。 (三)审计大数据分析 审计大数据分析是指审计人员为了实现既定的审计目标,通过数据抽取、转换、装载(Extract-Transform-Load,缩写为ETL)程序获取内、外部多种类型的数据,运用大数据分析模型、方法和技术,分析全部交易及不同来源数据背后隐藏的异常情况,有效识别舞弊、错误以及违反内部控制等情形。例如,通过计算数据的平均数、标准差、最大值及最小值等统计参数,有效识别异常交易,或通过数据分类、聚类及关联分析,有效识别数据的特征及其内在关联等,从而为舞弊识别、审计风险评估、审计报告出具等提供有效的决策支持。 传统的信息系统仅仅能够获取及分析企业内部的结构化数据,编制静态报表,基于有限的数据进行有限的分析。在数据具有海量、实时与多元特征的大数据环境下,大数据分析工具已经成熟,其可以快速向下挖掘数据特性,为使用者实时提供适应各种营运变化的解决方案,采取交互式仪表盘的操作,快速洞析数据,且通过可视化分析与展示技术,以更加直观、更易于理解的方式呈现大数据分析的结果。大数据分析与传统数据分析的对比如表1所示。