数据科学工具之R语言在审计数据分析中的应用探索

作者简介:
牛艳芳,审计署审计科研所;邓雪梅,山东省审计厅;陈伟,南京审计大学审计科学院。

原文出处:
中国注册会计师

内容提要:

02


期刊代号:F1011
分类名称:财务与会计导刊(实务版)
复印期号:2016 年 12 期

关 键 词:

字号:

      大数据是当前IT界最热门的话题之一,政府、学术界和产业界皆对其投入极大热情。按审计主体划分为国家审计、内部审计和社会审计,同样无一例外会受到巨大冲击。大数据一般具有数据量大、结构复杂、产生速度快、价值密度低等特点,进一步细分为静态数据的批量处理模式和在线数据的实时处理模式(程学旗等,2014)。不同审计主体的大数据各具特点:国家审计和社会审计属于外部监督,审计大数据特点属于先存储后计算,实时性要求不高,而数据准确性和全面性要求较高的静态模式;内部审计属于内部监督,因为要支持组织目标实现,其大数据特点与组织经营活动所产生的数据特征一致,例如互联网、金融、通信等行业的内部审计大数据就属于实时计算分析的动态模式。本文不强调审计主体所面临的审计大数据差异,而是探索大数据分析工具在审计工作中的应用,以弥补传统计算机辅助审计工具(Computer Assisted Audit Techniques,简称CAATS)的不足。

      据笔者对我国CAATS应用的了解,不同审计主体的审计人员所熟练掌握的CAATS有较大差异:政府审计人员比较熟悉SQL和审计软件AO;事务所审计人员比较熟悉面向账套审计的审计软件和EXCEL;内部审计不能一概而论,实力较强的公司会在ERP中嵌入内部审计模块或者开发专门的审计分析平台,而实力较弱的审计人员比较依赖EXCEL。反观现在的大数据技术,一系列名词一贯而出:Hadoop、Spark、Storm、Mahout、R、Python等。R和Python是当前最流行的大数据分析工具,两者都能够支持不同格式、不同数据源;支持绝大部分模型算法;支持多平台(如Hadoop、Spark)运行,本文主要介绍R语言在审计领域的应用。

      R语言对于绝大多数审计人员是陌生的,学习并熟练应用必然有一个过程。然而,要推动大数据技术在审计领域的应用,需要从大数据催生的数据科学视角重新审视审计数据分析范围,在理解传统审计数据分析和数据科学视角的审计数据分析的真正差异后,审计人员才能明白新兴大数据工具如何弥补传统CAATS的不足,才能促进大数据环境下的审计技术和方法向“数据化、及时性、智能化和预见性”转变(秦荣生,2014)。

      二、数据科学视角下的审计数据分析诠释

      (一)传统审计数据分析发展

      目前我国IT环境下的审计数据分析方法主要有:账表分析、数据查询、审计抽样、统计分析和数值分析等(陈伟,2012),常用CAATS工具有:审计软件、SQL、EXCEL、ACCESS等。审计人员运用SQL查询、审计软件对结构化数据的微观审计方法极大促进了我国审计信息化发展,但是时过境迁,在面临大数据分析时,传统辅助审计工具在提升审计查核、评价和宏观分析能力方面显得力不从心。

      (二)数据科学视角下的审计数据分析

      大数据催生了数据科学产生与发展,它是基于统计学、计算机科学、机器学习、数据挖掘等方法从结构化数据、半结构化和非结构化的复杂海量数据高效获取有价值信息过程的新兴交叉科学(魏瑾瑞等,2014)。近几年与数据科学有关的理论、方法和工具在多个领域得到推广与应用,相比较之下,审计数据分析发展远落后于数据科学发展。美国注册会计师协会(AICPA)在2014年发布的《在无线世界中重构审计》白皮书中指出:“数据科学领域中的各种技术与方法如果能够应用在审计实践中,审计人员就可以更有效地执行审计,提供以前无法提供的多种形式的审计证据。”在该白皮书中,AICPA对审计数据分析的定义也具有了数据科学味道。

      AICPA认为审计数据分析是为执行审计计划、完成审计业务目标,对被审计单位数据进行数据发现、分析数据模式、识别异常、提取有用信息,或者进行相关分析、建模和可视化的科学和艺术。具体包括:(1)识别和分析数据中的异常模式和异常值;(2)为聚焦审计风险对财务业绩及其他经营单元、系统、产品或其他维度的数据进行映射和可视化;(3)建立统计模型(如回归模型)或其他模型来解释数据与相关因素的关系,并从模型中识别显著波动;(4)组合多种数据源或多种分析结果,从而产生更有意义的额外信息(AICPA,2014)。可见AICPA对审计数据分析的界定并没有特别突出“大数据”,而是强调数据科学的模式识别、数据建模和数据可视化应用,而要实现这些功能必须依赖高级数据分析工具。

      从大数据角度来讲,学者认为对于审计师而言的大数据是多种数据类型的混合,包括传统结构化的财务与非财务数据、业务数据、传感器数据、EMAIL、通话记录、社交媒体数据以及其他内外部数据,对于这些复杂数据的分析可以更好支持审计证据发现,增强审计证据的充分性、可靠性和相关性(Alles,2015)。复杂审计数据分析与学术领域研究的社交网络分析、文本挖掘、数据匹配、机器学习有很多相似之处,学术研究方法和成果应尽快向审计实务界转移(Kyunghee,2015)。我国当前IT审计学术研究不乏应用数据挖掘方法取得良好审计结论的研究成果,但学术研究强调了数据分析算法与模型应用,却较少考虑审计人员如何在实践中加以运用。

      本文认为,数据科学视角下的审计数据分析是传统审计数据分析的扩展和延伸,其数据对象由微量的结构化数据扩展为复杂多变的海量混合型数据,其数据分析方法由传统审计经验导向的数据汇总与查询转变为数据导向的数据挖掘、机器学习分析方法(AICPA,2014),那么分析工具就应该由从传统CAATS转变为集统计学、数据挖掘、计算机科学为一体的数据科学分析工具,而R语言正是将传统审计数据分析引入数据科学分析的有力利器之一。

相关文章: