印度审计数据分析工作概况 大数据的出现标志着一种模式的转变,从设计的角度来看,它设想能够综合并整合各种来源和各种格式的相关数据,将其转化为可操作的信息,进而助力提高审计的有效性和效果性。印度最高审计机关从数据整合、统计分析、可视化技术、数据库建立、能力建设等方面着手,通过实施标准模型、运用特定审计分析技术、开展试点项目等手段推动大数据审计工作。一方面,由于信息技术的快速发展,可以让审计人员使用经济高效的工具、技术平台和解决方案来处理和分析大数据。另一方面,审计工作也面临转型发展,数据分析能够通过发现危险信号、异常值、异常行为等现象,增强审计的预警能力,提升风险评估水平。同时,数据分析能为管理层提供基于证据的决策判断,使最高审计机关能够辅助政府开展国家治理工作。 为保持制度的敏捷性,紧跟时代发展趋势,抓住数据分析中不断变化的机遇,印度最高审计机关在2015年制定了《大数据管理政策》,为其数据分析框架描绘出了大致轮廓。2016年成立了大数据专家委员会、数据管理和分析中心。2017年制定了《数据分析指南》,不仅为数据分析的使用提供制度框架,也为所有地方办事处和审计现场提供数据分析方法与方向。利用这些制定的政策和指南,印度最高审计机关主要着力解决在数据源识别、数据管理协议构建、数字审计及可视化策略、基础设施及能力建设等方面存在的问题。数据管理和分析中心是印度最高审计机关进行信息化建设和数据分析的重要机构,也为数据分析未来的发展研究建言献策。目前,印度最高审计机关的数据分析工作已成为审计过程的一部分,需要确保审计人员随时获取相关信息。为了保证数据定期更新、各地方办事处与总部之间能够根据规定的协议实现数据无缝共享,解决方案是要映射或集成所有与数据分析相关的流程,即总部层面和每个地方办事处层面均需构建一个数据库。印度最高审计机关正在打造一套一体化的审计管理系统,可以系统化地将数据收集和管理变成现实。 印度审计数据分析实践 数据分析是从数据中提取有效信息或形成结论的一种数据科学方法的实践应用。它包括数据采集、数据预处理,以及应用各种数据分析技术获取相关信息或结论等一系列步骤。数据分析获取的内容包括有关的趋势性、模式性、偏差性和不一致性等,以及通过分析、建模和可视化等方法挖掘数据之间的关系。当前有不同形式和不同来源的数据用于审计,数据分析为挖掘这些数据提供了潜在能力,通过分析可取得关于审计工作的结论,也有助于确定审计方向,特别是确定关注重点或风险领域。 数据分析的核心是“数据”,通过对数据进行采集、分析和可视化,可以对事实和原因做出有意义的解读。数据分为非结构化数据和结构化数据,主要区别是数据是否可以制成表格以进行分类统计或数学分析。数据的来源主要包括以合并财务、收入账户、审计过程中产生的数据为主的内部数据源,和以被审计单位提供的或第三方以及公共领域内可用的其他数据为主的外部数据源。审计人员从各种来源采集数据,需要确保其真实性、完整性、相关性、可用性和安全性。审计人员采集到的数据可能并不是所期望的数据形式、大小或质量。因此,数据需要从可用的格式预处理到所需的格式,数据预处理就是为了实现分析数据的目的而进行的过程。它涉及各种操作,如恢复数据、合并分割数据、清洗转换数据等。这些操作既可以是相互联系的,也可以是一系列独立的步骤。 对经过预处理的数据可以通过描述性分析、诊断性分析、预测性分析和规范性分析等方法进行分析。描述性分析是回答“发生了什么”,提供了对被审计单位过去发生事件的认识,涉及单个事件的聚合,因此需要从更大的视角呈现其意义和来龙去脉。诊断性分析是描述性分析的一种高级形式,回答“为什么会发生”或“如何发生”等问题,涉及理解相关数据集与特定事件集,以及它们的行为和潜在原因之间的关系。通过深入研究和利用统计技术,有助于理解各种事件的发生原因。预测性分析,顾名思义,是基于过去的数据并试图预测“什么会发生”“什么时候发生”“在哪里发生”。各种预测和预估技术可以在一定程度上预知一项事件的未来结果。规范性分析是审计人员进行的一系列可能的“规定”操作,以便得出的结果为未来提供解决方案。 利用上述数据分析方法,采用统计技术和可视化技术等分析技术相结合的方式,有助于审计人员了解被审计单位并确定其中存在的问题。统计技术是对数据进行描述性统计,即以统计方法来描述、汇总数据,还可以通过简单的图形加以补充。可视化技术是使用可视化、图形和图表来获取对数据的理解和认知,无须对数据进行统计分析和建模,而是直接通过展示数据发现结果。 专业知识对于理解数据分析过程产生的结果至关重要。作为数据分析结果的审计信息或结论,可以用来识别审计风险或重点关注领域。而作为数据分析结果的审计证据,需要审计人员进行专业判断,并通过实质性测试获取其他形式的证据加以证实。当数据分析结果符合审计准则规定和要求时,即可作为审计证据。 数据分析模型是指能够得出分析结果,并通过更新或改变数据可以重复使用的分析测试集。建立数据定期获取机制后,数据分析模型可以完成对特定数据集的风险分析,并且可以对相同的数据集在未来的年份重复分析。建立一个数据分析模型,需要通过恢复和清洗数据集对来自不同的可用数据源的数据进行预处理。在预处理阶段之后,数据存储在数据库中,通过对数据库和数据预处理后可用的数据集采用不同的分析技术,可以得出信息或结论,并将其转化为数据分析模型。模型可以由方程式、查询方法、工作流程或数据分析仪表盘组成。模型的一个重要特性是可重复使用性。模型一旦创建,就可以通过更新数据来重复使用。因此,模型的有效性依赖于数据的周期性更新,不应把数据采集过程视为一次性工作,而是需要建立每年或定期采集数据的机制。如果数据是实时接收的,模型也会实时更新,从而实现持续审计的可能性。