大数据时代的到来为各行业提供了机遇和挑战。2008年9月4日,《Nature》杂志大数据专题论文中首次提出大数据的概念(Lynch,2008),《Science》杂志2011年专刊讨论了如何管理大数据。目前,大数据的研究和应用已经成为国内外的热点。随着被审计单位信息化趋向普及,审计对象的信息化使审计信息化成为必然。有价值的审计线索是帮助审计人员发现被审计单位有关违规或违法问题的关键因素,信息化环境下,审计人员通过审计被审计单位的电子数据,发现审计线索,然后通过对审计线索进行确认,获得相关审计证据。因此,把握住审计线索的特征,不断提高审计线索的发现方法,发挥审计功能是今后审计工作的一项重要任务。 随着大数据时代的到来,研究如何借助大数据技术来充分发挥审计的监督作用,具有重要的理论意义和应用价值。虽然目前常用的电子数据审计工具与方法等能帮助分析电子数据,发现审计线索,满足电子数据审计的基本需要,但如何透过现象看本质,通过发现的审计线索分析出更深层次的问题尚缺少研究。目前电子数据审计过程中,枯燥的数字和分析结果影响了审计效率,且难以帮助审计人员从审计大数据中发现被审计单位电子数据中的关系、规律和趋势。考虑到大数据分析结果一般来说不容易理解,把分析结果转换成容易理解的图形和图表有助于分析人员更好地理解大数据。国际内部审计师协会认为数据可视化是大数据的一个重要特点(GTAG,2017)。数据可视化是通过图形化手段,将复杂的数据模型表达出来,从而清晰有效地表达数据中的信息,用户通过数据可视化可以“洞察”数据中的规律(Vitaly,2007;陈伟,2017)。大数据可视化技术的发展为解决以上电子数据审计过程中出现的这些问题提供了机遇。本文结合目前大数据的研究与应用现状,研究基于大数据可视化技术的审计线索特征挖掘方法。 二、基于大数据可视化技术的审计线索特征挖掘方法理论分析 (一)目前常用电子数据审计方法存在的不足 目前,信息化环境下对电子数据审计一般采用基于SQL的数据查询方法和基于电子表格软件的数据查询方法。基于SQL的数据查询方法一般是通过对审计问题的分析,构建相应的SQL语句,然后通过在一些数据库工具(如Microsoft Access、SQL Server等)或审计软件中运行以上SQL语句,查找出相关审计线索。基于电子表格软件的数据查询方法一般是借助电子表格软件(如Excel、金山WPS表格等)中的排序、筛选、分类汇总、数据透视表等功能对数据进行分析。目前常用电子数据审计方法存在以下不足:一是基于SQL的数据查询方法中,无论采用数据库工具,还是审计软件,一般都需要编写烦琐的SQL语句,且对审计人员的技术水平要求高;分析结果以二维表格形式展示,当结果数据量大时,显示的结果枯燥,并且不形象;仅是通过排查的方式发现审计线索,在深度发现审计线索特征以及发现复杂性隐蔽的审计线索方面尚存在很大的不足。二是基于电子表格软件的数据查询方法中,对于海量数据的分析和半结构化数据的分析存在一定的不足,同时可视化分析功能有限。进入大数据时代,数据数量不断增加,数据类型和结构更加复杂,而电子表格软件所能处理的数据数量和数据类型受限,导致常用的电子表格软件不能满足大数据审计的需要。三是难以发现复杂性隐蔽问题以及问题产生的原因和规律,进而从根源上防范。 (二)大数据环境下的电子数据审计方法原理 信息化环境下如何审计被审计单位的电子数据是一项重要任务。电子数据审计一般是指对被审计单位的电子数据进行采集、预处理以及分析,从而发现审计线索,获得审计证据的过程(陈伟,2012)。大数据环境下,电子数据审计的部分环节与方法发生了变化。根据目前大数据环境下开展电子数据审计的需要,提出了大数据环境下的电子数据审计方法。 (三)基于大数据可视化技术的审计线索特征挖掘原理 目前大数据分析的相关理论和方法研究一般从两个方面展开(任磊,2014;Keim,2013):一是以各种高性能处理算法、智能搜索与挖掘算法等为主要研究内容。它是目前大数据分析领域的研究主流,它从计算机的视角出发,强调计算机的计算能力和人工智能,例如基于Hadoop和Map/Reduce框架的大数据处理方法以及各类面向大数据的机器学习和数据挖掘方法等。二是以大数据可视化分析(Keim,2013;任磊,2014)研究为主要代表,从人作为分析主体和需求主体的视角出发,强调基于人机交互的、符合人的认知规律的分析方法,意图将人所具备的、机器并不擅长的认知能力融入分析过程中。大数据环境下,数据可视化技术能够更简洁地表达被审计大数据的信息,有助于审计人员探索、分析和解释复杂的海量数据,借助数据可视化技术,审计人员能够“洞察”被审计数据信息中内在因素的模式和关联,快速从大数据中发现审计线索及其特征。 基于大数据可视化技术的审计线索特征挖掘方法原理如图1所示。在审计大数据集成和预处理的基础上,借助某种大数据可视化软件对被审计数据进行可视化建模分析。审计人员结合自身的审计背景知识,发挥人类视觉系统的敏感性,通过对可视化的结果图形和图像进行观察、分析和认知,从总体上系统地理解和分析被审计数据的内涵和特征,从而发现审计线索,获得审计证据。同时,根据需要,交互地改变可视化软件的设置,改变输出的可视化图形和图像,从不同方面获得对被审计数据的理解,从而全面发现审计线索的特征,分析产生相关问题的规律和原因。概括来说,通过基于大数据可视化技术的审计线索特征挖掘,使审计的过程不仅仅是查找审计证据,而是通过对审计线索的分析,发现相关问题产生的规律,及时提出防范和化解风险的对策建议,完善相关管理体制、修订相关法律等,及时揭示和反映对全局和未来有根本性影响及存在重大风险隐患的问题。