2018年5月23日,习近平总书记在中央审计委员会第一次会议中指出,要科技强审,加强审计信息化建设,与时俱进,创新审计理念。大数据审计是现代审计发展的必由之路,审计大数据可视化是实施大数据审计的关键步骤之一。2019年7月,第六届中国可视化与可视分析大会在成都召开,与会专家共同探索可视化与可视分析的前沿技术以及如何促进它们在审计等领域的应用。可视化技术能够将海量审计数据以直观图形式呈现,促使审计人员通过人机交互分析快速洞察审计大数据中隐藏的内在规律。大数据可视化技术涉及传统的科学计算可视化与信息可视化,而信息可视化过程涵盖文本可视分析、网络(图)可视分析、时空数据可视分析与多维数据可视分析等类型。本文所依托的理论是大数据可视化的一个重要主题,即文本可视分析,研究对象是审计大数据的文本可视化,其从属于审计学和可视分析学的交叉学科范域。审计所涉列的文本信息类型多样,如文件、档案、报告、微博、新闻、邮件、web文本等。近年来,审计文本信息的数量呈现几何倍增长,非结构化文本数据在审计大数据中的占比日益增加,国家审计机关需要强化文本可视分析技术在大数据审计中的应用,力求建立切实可行的审计大数据可视化运行体系。 二、文献回顾 (一)文本可视分析 文本可视分析从属于计算机图形学、文本分析、人机交互、数据可视化、认知科学等学科的交叉范域,有助于发现复杂文本的内在规律。有关文本可视分析的理论研究主要集中于:(1)内涵研究。文本可视分析是通过对海量文本数据进行分析,提炼其中所蕴含的关键信息,并运用计算机技术将其以视觉符号形式呈现的过程,其本质是以图形化方式为中心,挖掘文本大数据中潜在的数学结构。Wise将文本可视分析分为基于词频统计的分析、基于聚类算法的分析和基于语义的分析,袁海等将其分为基于词汇的分析、基于篇章的分析、基于时间序列的分析以及基于主题领域的分析。(2)纵深研究。在文本挖掘方面,Goswami、朱韶平和马长林分别探索模糊聚类算法、LDA模型与CTM模型在文本挖掘中的应用。在视图绘制方面,姜婷婷针对时间序列文本数据展现问题提出基于桑基图的可视化方法,王孝男针对文本图片无法准确切分情况提出一种复杂场景文本图标识别方法。在人机交互方面,王宁针对人机交互界面中的典型形状建立视觉显著度计算模型,刘浩然建立基于视觉特性的人机交互界面色彩图像增强算法,它们旨在强化界面感知,提升用户体验。(3)拓展研究。当前,文本可视分析研究已被延伸至诸多实践领域,如张加万建立基于文本摘要的可视辅助文献阅读系统,张伟探析文本可视化在网络舆情中的应用范式和实现路径。 (二)审计大数据可视化 审计大数据可视化是大数据审计的必经之路,可视分析技术能够改变传统审计模式下的数据界面,代之以直观的各种动态视觉符号。有关审计大数据可视化的理论研究主要集中于:(1)概念和意义。审计大数据可视化融合了图形学、图像处理、计算机视觉、计算机辅助设计以及信号处理等不同学科领域知识,采纳计算机图形图像处理等相关技术,将审计大数据信息的内在结构转换为图形或图像的形式进行显示,并实施人机交互处理,其最终目标是促使审计人员快速识别出蕴含在审计大数据内部的“疑点”,洞察问题的本质,从审计大数据中发现新知识、创造新价值,增强大数据审计的效率和效果,降低审计风险。(2)实施方案。对于低维数据可视化,审计人员首先借助可视化技术将审计大数据转换为清晰的图形和图像;其次,运用自身的背景知识分析有关图形或图像,认知审计大数据的总体特征以及数据之间的逻辑关联;再次,交互变换可视化软件设置,从不同视角审视被审数据,获取审计证据。对于多维数据可视化,审计人员可遵从空间划分、可视数据开发、可视化建模、可视数据分析以及可视化呈现等步骤,对隐性数据集的属性和特征在最大程度上实现形象化展示,全方位发掘数据群中的内在价值。(3)方法应用。近年来,可视化技术被广泛应用于大数据审计之中,其中,美国交通部联邦公路管理局探索如何将三维可视化技术应用于公路安全审计之中,以此评价道路设计的科学性。此外,Lauren认为Tableau技术有助于描绘财务与非财务等不同数据之间的关联机制,利于国家审计机关快速识别客户数据中的异常事项和风险因素,孟志华论证3S技术运用于绩效审计的可行性,并提出建设思路。 目前,有关审计文本大数据可视化的学术文献极为稀缺。其中,张志恒提出基于文本挖掘的审计大数据分析框架,阐释结果可视化的运行思路。陈伟结合实践案例探讨审计文本大数据取证方法,分析标签云在文本数据取证中的应用。综上,我国针对审计文本大数据可视化的理论研究尚处起步阶段,其不足体现于:第一,研究内容尚不全面。关于审计文本大数据可视化的理论体系是由目标、主体、客体、功能、需求、流程、模型、方法、指标、标准等一系列要素有机融合而成,只有明确上述各个要素的属性特征和本质内涵,基于文本可视分析的大数据审计取证才能有章可循。近年来,相关方面的理论积累较为匮乏,既缺少基于某一要素的纵深研究,也缺少若干要素相整合的关联研究,文献分布零散,难成体系。第二,缺少技术应用方面的评估。尽管各类文本可视化技术日趋成熟,但针对资源环境审计、扶贫政策跟踪审计、医保审计、税收审计等不同情境下的审计活动,仍然需要对各类文本可视化技术在大数据审计中的应用模式进行全方位评估,进而判定所选技术在特定审计情景下的可行性、可用性和实用性。关于此方面的研究至今还尚未开展,这还有待于学界的继续努力。本文以国家审计机关为对象,以文本大数据可视分析为中心,基于现实可能和客观需求,对审计文本大数据可视化的运行流程、技术方法和管理策略作系统性研究,以期为大数据背景下的国家审计智能化取证实践提供决策支持。