近年来,随着信息技术与经济社会深度融合,以数据分析为核心的计算机审计成为国家审计的重要手段。互联网、物联网以及智能移动终端的迅猛发展,催生了数据量激增、信息量爆炸的大数据时代,大数据正成为国家审计持续发展的重要战略资源。 传统的数据分析方法在大数据环境下亟待变革。传统的数据分析方法,一般是业务审计人员依据抽象的业务流程提出审计思路,计算机人员再根据其思路反复编写修改程序来验证审计思路可行性,这是一种“验证型审计”方式。在巨量(Volume)、多样(Variety)、高速(Velocity)、价值高密度低(Value)的大数据环境中,这种验证型审计方式某种程度上说有些“误打误撞”、“盲人摸象”,数据分析工作量大,在审计宽度、审计深度方面都面临较大风险。 可视分析是大数据审计取得突破的重要方向。大数据审计的目标是把隐没在海量的、异构的、杂乱无章的电子数据中的信息集中、萃取和提炼出来,揭示其内在规律,为评价被审计单位经济活动和相关资料的真实性、合法性、效益性提供有力的线索或直接的证据。客观上,大数据环境要求计算机审计工作从“验证型审计”方式转变为“发掘型审计”方式。这既需要先进的人工智能,包括智能搜索、数据挖掘等,也需要人的感知能力、认知规律与分析过程的有机融合,包括人机交互、可视建模、图形展示等。可视分析是以可视化技术和自动化分析模型为核心,辅助用户对大规模复杂数据集进行分析推理的科学与技术。通过可视化的自动建模技术将大数据以直观的图形形式展示,审计人员往往能够一眼洞悉数据背后隐藏的信息,不再受制于枯燥晦涩的数据分析算法。因此,以人为中心的探索式可视分析是大数据审计不可或缺的重要手段或方法。 一、可视分析的概念与相关研究 在1986年10月美国国家科学基金会举办的图形、图像处理和工作站讨论会上,科学计算可视化概念第一次被正式提出。经过近30年的发展,可视化技术的范围逐渐延展为科学计算可视化、数据可视化、信息可视化和知识可视化四类,其主要区别是处理对象以及目的不同(张卓,2010),如图1所示。
可视化技术与人机交互、认知科学、数据挖掘、信息论、决策理论等研究领域交叉融合,产生了新的研究方向——可视分析。Thomas和Cook在2005年给出了可视分析的概念:一种通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学与技术。可视分析的运行过程是数据-知识-数据的循环过程,中间经过两条主线:可视化技术和自动分析模型。可视化领域国际顶级会议IEEE VisWeek自2006年起每年举办“可视分析科学与技术”会议(IEEE Conf.on Visual Analytics Science and Technology,简称IEEE VAST),可视分析正式成为一个独立的研究分支。 可视分析的初始研究目标之一是面向大规模、动态、模糊或者常常不一致的数据集进行分析,其与大数据分析的场景高度吻合。大数据可视分析是指在运用大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合机器的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。 大数据分析的研究得到一些国内外学者的关注(程学旗等,2014;刘智慧等,2014;方巍等,2014),国内大数据可视分析的研究还比较鲜见(任磊等,2014;张俊,2013),大数据审计中的可视分析研究目前几乎还是空白。大数据可视分析的研究范围主要包括分析过程的认知理论、信息/数据可视化理论以及人机交互与用户界面理论。研究表明,大数据的主流可视化技术包括文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化技术;支持可视分析的人机交互技术主要包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向Post-WIMP的自然交互技术。关于大数据审计的研究文献比较稀缺(秦荣生,2014),个别文献在特定的审计项目中探索了可视化技术的应用(邱玉慧等,2014;李强等,2011),但均未对大数据审计可视分析方法进行系统研究。 二、大数据审计的可视分析需求 (一)图形图像数据审计的可视分析 在交通运输、资源环保、人口地理、建筑市政、制造业、医学医疗等行业或业务的审计中,计算机中承载业务的数据主要是融合几何信息、像素信息的图形图像数据,大数据可视分析具有得天独厚的优势。 与传统的数据分析技术相比,可视分析技术更倾向于发掘型分析,它的特点主要表现在:一是具有友好的人机交互能力,可视化数据分析的所有操作完全通过鼠标人机交互完成,即便无计算机专业背景的审计人员也能轻松应用。二是具有丰富的图形展示功能,有助于审计人员把握整体情况,明确审计重点,获得审计思路,提高审计质量。尤其适合于地理信息、人口信息、基建工程、医学图像、机械制造等数据的立体展示及数据分层(分类)汇总。三是具有强大的图形分析功能,可交互构建和调整曲线、曲面、点云等数学模型。适合于对海量数据进行趋势分析,为查找异常提供线索。四是具有多样图形运算功能,可替代部分数据库编程工作,提取异常数据。如两个信息系统间数据的模糊匹配,在海量数据的情况下,其速度比传统的数据库编程方式快几万倍;又如按地理位置划分税率的税收审计,如城建税、土地使用税等,数据库编程根本无法实现,图形化运算则可快捷实现。五是部分可视化分析软件提供丰富的工程核算功能,可快捷地计算不规则形体的面积、体积、质量、密度等,适合于投资审计领域的工程量核算、退耕还林检查、建设征地核查等。(见图2)