多维数据分析(on-line analytical processing,OLAP)是以海量数据为基础的复杂分析技术,它可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,通过对数据进行剖析,可以从多个角度、多个侧面观察数据库中的数据,迅速找出数据反映的各类信息。 近年来,审计人员在审计领域对多维数据分析技术进行了不断的尝试和探索,取得了很好的效果,并总结出审计数据多维分析的总体过程,即:构建总体分析模型,站在一定的高度上把握总体,从观察趋势、选择重点,到运用钻取、掌握明细,直至发现线索、引导延伸。 在地税联网审计中,涉及的税务征收、管理、稽查、评估等业务数据量大,数据关系复杂,如果仅依靠简单的SQL查询是盲目的,审计风险较高。因此,在联网审计系统及数据库建设过程中,有必要对多维数据分析技术进行应用研究,并将其作为一种重要的审计分析手段融入联网审计系统中,使审计人员能够对数据进行宏观分析、深度挖掘、钻取,深入剖析税收结构、比重、税源税基变化情况以及税收计划完成情况,迅速锁定审计疑点,揭示地税部门在税源控管以及信息系统控制等方面存在的薄弱环节,以便更好地履行联网审计实时动态的审计监督职能。 一、建立多维数据集,作为地税联网审计的基础模型 开展多维数据分析,可以利用和借助市面上很多多维数据分析工具,如服务器端工具有Microsoft SQL Server Analysis Services(SSAS)、IBM DB2 OLAP Server、Oracle Express Server等,客户端工具有Excel、ProClarity、Oracle Express Analyzer、Crystal Analysis等。以下所述地税联网审计系统(已在南京市审计局应用部署并稳定运行)基于SQL Server 2005进行开发,审计数据的多维分析主要通过SQL Server 2005的BI平台和SSAS工具实现。 1、电子数据准备 数据质量的优劣直接关系到是否能进行多维分析,以及分析结果的有效性。联网后,系统定期从地税部门自动采集电子数据,经过清洗、转换、验证、集成和优化等数据处理操作,按照《地方税收审计数据规划》(审计署计算机审计实务公告第9号)的相关标准形成审计中间表,搭建审计数据库。同时,地税数据的逻辑结构设计包括主题数据、数据表、元数据、数据粒度、数据分割等方面,实践中,共设计了13类主题数据,139张基础表,40张分析表,41类元数据,并按税种、时间、行政区划等多种策略进行数据分割,为多维数据集的建立做好基础准备。 2、设计多维数据集 利用SQL Server 2005商务智能(B1)平台,建立SSAS项目,设计多维数据集。步骤如下: 第一步:定义数据源,使之连接到联网审计数据库服务器。 第二步:定义数据源视图。选择需要用到的数据表和视图,如“税款征收数据表”、“税款退还数据表”、“近3年纳税申报数据表”、“地税税种税目信息表”、“代码_申报类型代码表”等各类基础数据表、分析表、代码表。 第三步:确定事实数据表、维度表、度量值、维度等。根据审计业务和审计重点,在加工好的审计数据基础上,选择事实数据表和维度表,增加度量值和维度,还可根据度量值间逻辑关系,通过计算等方式丰富多维分析内容及审计指标,最终建立具有多种业务角度及审计角度的多维数据集。在设计多维数据集时,要充分考虑审计业务的需要,建立恰当的度量值、维度、计算成员。 如针对房产税,审计分析需求包括:房产税近几年的缴纳情况及其增长变化趋势、当年各月房产税征收的地区分布情况、与往年同期缴纳的差额等,建立“房产税征收”多维数据集时,其事实表、维度表、度量值、维度等均应结合审计需求进行设计,事实表可确定为:房产税税款征收数据、税款退还数据;维度表可确定为:国库基本信息、纳税人基本信息、税务机构基本信息、代码_预算级次代码等共26张表;度量值可确定为:应纳税额、减免税额、实纳税额、税款退还开票金额等共9个;维度可确定为:时间维度、缴款方式、国库代码、减免原因、退税类型等共32个;计算成员可确定为:本年与上年同期房产税差额、实际入库税款等。设计结构如图1所示。
图1 3、多维数据集的数据处理 通过对SSAS项目进行部署,可对基础数据源进行数据处理和计算,并将处理结果复制到多维数据集对象中。此后,就可以利用多维分析客户端工具浏览多维数据集中的实际数据,开展审计多维分析工作。 二、建立多维分析模型,实现总体分析 在地税联网审计系统中,已建立的多个多维数据集以基础模型的形式提供给审计人员,利用集成到系统中的SSAS多维分析功能,审计人员根据审计任务及审计重点,提取相关维度和度量值,设置一定的筛选条件,就可以组合出满足审计需要的多维分析结果,并以数据和图表的形式展现给审计人员,方便快捷地实现总体分析。