可视化分析在审计中的应用步骤和工具建议

作者简介:
牛艳芳,孙瑜,邓雪梅,山东财经大学会计学院;山东省审计厅信息中心

原文出处:
中国审计

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2018 年 04 期

关 键 词:

字号:

      传统以查询验证为主的SQL语言方法已不能完全满足审计大数据分析的需求,需要丰富多样的大数据技术提高数据分析效率和效果。伴随大数据兴起的不仅有数据挖掘、机器学习,还有将可视化与数据分析相结合的可视化分析,即通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学技术,按照目的,可视化分为探索性可视化和解释性可视化。

      对于海量、杂乱、多样的探索性分析,审计人员可以在图形展现和交互手段支持下更好地把握数据结构及分布规律。在成果展示阶段,解释性可视化图形具有简洁、美观、信息量大等优点,帮助审计人员把分析成果更生动地展现出来。

      审计可视化数据分析步骤

      审计可视化数据分析的流程为:数据采集、选取可视化软件、数据清洗和转换、图形化展示、获取审计思路、可视化建模、可视化提取疑点数据7个步骤。审计可视化数据分析的层次嵌套模型分为四个层次(如图所示):第一层是问题刻画层,描述用户可视化需求;第二层是抽象层,将该领域任务和数据映射到通用的任务及数据类型;第三层是编码层,设计与数据类型相关的视觉编码及交互方法;第四层是算法层,创建完成系统设计的算法。基于这四个层次的划分,可以了解每个层次的问题、风险及解决方案,较好地达到可视化系统设计的目的。

      参考层次嵌套模型图,审计可视化数据分析的主要步骤如下:

      

      按照行业领域系统整理探索性可视化的why和what。按照通用行业审计进行分类,首先明确探索性可视化的面向对象,其数据构成、来源和质量如何,有哪些好的分析思路,即why和what的问题。可视化需求的整理可以是审计人员关注的重要维度和常用分析思路,还可以参考借鉴其他领域可视化的优秀案例。

      提取可视化展现的数据结构。从可视化需求整理出适合可视化展现需要的数据结构。一张图能够展现的字段、记录数有限,需要从多个审计标准表中提炼或简化适合可视化图像的维度,同时能够满足审计数据分析的要求。在此阶段,通常会涉及多个表的合并、连接操作,SQL可以完成常见的数据处理工作。

      设计可视化图形的视觉编码和交互手段。此步骤是可视化设计的核心环节,视觉编码与交互设计只有相互依赖配合,才能达到数据多维化显示、直观生动的可视化分析效果。

      视觉编码即数据到图形的映射,如何将不同维度、不同层级的数据元素映射成简单明晰的图像,这需要测试多种编码方案。同一数据运用不同的图形展现,达到的效果有较大差异,这与用户感知、认知特点、数据本身属性和可视化场景息息相关。目前,可视化图形类型较多,常见的有柱形图、散点图、折线图等。近年来,展现高维可视化的多维图、层次图、网络图、时序图成为视觉编码的研究和应用热点。采用传统二维图表方式难以表达的大量、复杂的数据,可以尝试使用多维图,常见的有散点矩阵图、平行坐标系图、圆形坐标系图等;层次图是表达具有等级或层级关系的图形,如树形图;网络图是表达具有网状结构的图形。建议以简练、直观、美观为原则设计视觉编码,有时需要多个图形相互配合。

      交互设计是用户通过与图形之间的对话和互动来操纵和理解数据。当数据量大、维数较多时,必须通过交互手段来突破有限的可视化空间。对于复杂的探索性可视化设计,一般先从总体去了解,再从局部看变化。因此,建议采用“概览+细节”交互布局,利用选择、导航、过滤等交互方法,尽可能贴近审计人员的数据分析习惯。

      融合数据挖掘算法的建议。对于海量数据的可视化分析,需要结合科学挖掘算法来发现用户关心的数据模式或分析结果,设计者需要平衡数据挖掘的自动分析和可视化的交互分析。在数据挖掘领域中,最常使用聚类分析、异常点检测进行数据探索,但不是把原始数据直接用来挖掘检测,而是建立在有效审计数据指标基础上,才能确定正常标准是什么,哪些是异常,从而达到探索性挖掘的目的。

      可视化工具应用建议

      可视化工具主要解决数据可视化的架构、性能、布局算法、交互等问题,种类繁多,将可视化工具分为三大类:一是基于Web开发的可视化JavaScript(JS)库:二是以Tableau为代表的商业可视化软件;三是开源数据分析中的可视化包,如R、Python。

      (一)基于Web开发的可视化JS库

      基于Web开发的可视化由前端图形JS库完成,如经典D3.js、HighChart.js、百度echarts.js等,这些JS库有较好的封装性、大量的可视化图形素材,在国内外各大网站得到广泛使用,具有开源、免费、可定制性强的特点。对于图形JS库应用,要求用户熟悉JavaScript、CSS、HTML等网络编程语言。

      基于JS库的Web可视化展现和交互效果最佳,但是技术水平要求较高,且已经超出数据分析领域,建议具有较强计算机背景的审计人员学习,有助于完成通用性、代表性的审计大数据可视化界面,并形成网页服务供审计人员共享。对于复杂可视化前端页面,可以由审计人员提出可视化设计需求,交由软件公司外包完成。

      (二)以Tableau为代表的商业智能可视化软件

      商业智能可视化软件的最大优点就是用户不用编写代码,只采用拖拽方式就可以实现交互、直观的可视化。例如,Tableau可连接多种数据源,提供了较丰富的内置图形素材,能够快速把数据转换为交互可视化仪表板。而高端服务器版可将可视化展现结果发布到网络服务器,实现多用户共享,但缺点是价格比较昂贵,可视化图形素材不如JS库丰富,地图可视化需要连接互联网;微软2016年推出的PowerBI是Tableau强有力的竞争者,功能更加丰富、卓越;国内方面有永洪等产品。

相关文章: