互联网大数据相继催生出诸如R语言、IBM Hadoop、HP Vertica、分布式实时计算系统Storm等许多较成熟的大数据分析工具,从而为内部审计技术的创新和方法体系的完善提供了有力支撑。毋庸讳言,这些工具性能的确强大,但因为大部分数据分析是通过编程实现的,对于非计算机专业背景的审计人员来说,学习和掌握这些工具难度较大。因此,寻找一款不那么“高大上”、不需要编程或仅需较少程序语句的专门工具,就显得非常必要,微软的Power BI即是符合条件、满足需要的选择之一。 一、Power BI简介 对于Excel,大多数审计人员都能够熟练应用。而Power BI脱胎于Excel,两者的基本操作是相通的。具体而言,Power BI由Power Query、Power Pivot、Power View、Power Map四部分组成。其中Power Query可以轻松地链接公众数据或企业数据源;Power Pivot能够直接在Excel中创建复杂的数据模型;Power View用来创建报表和交互式数据可视化分析视图;Power Map则在Excel中体验标注地理空间数据的3D地图,见图1。 二、Power BI的数据分析优势 (一)可快速处理大数据,实现审计数据分析全覆盖 由于Power BI采用新的算法和数据存储方式,其处理数据量的多少只取决于计算机内存的大小,并且运算速度快,使得审计人员可以对大数据进行全面分析,弥补审计抽样的缺憾。 (二)可快速实现数据可视化
应用Power BI可快速实现数据的可视化,从视觉上直观地呈现数据分析结果,并实现数、表间的联动。 (三)建立的分析工具可重复使用 使用Power BI对数据进行分析后会形成pbix文件,这个文件可作为以后对此类问题进行数据分析的工具。在分析新的相同类型数据时,审计人员只需在pbix文件中替换相同格式的数据源,刷新即可得到分析结果,极大地提高了工作效率。 (四)Power BI可以免费使用 虽然免费软件本身对信息共享功能进行了限制,但应用Power BI对数据分析丝毫不会受到影响。 三、Power BI的审计应用实践 一般而言,欲对某一事项进行分析,需要根据分析的目的,合理确定需要采集的数据,这是正确进行数据分析的基础。审计中,数据分析需要的数据不仅包含企业各类信息系统数据,也可能包含系统外数据,如来自企业外部诸如国家机关、行业协会公布的一些执行标准、公告等数据。由于数据来源不一、格式不同,为保证分析数据的正确性、一致性和完整性,在采集数据后,审计人员应首先对数据进行加载、清洗,再进行数据分析。 (一)数据的采集 Power BI提供了几十种数据采集方式,可对电子表格、文本文件、数据库、网页、微软云计算平台等几乎所有数据类型进行采集。但要用Power BI直接对服务器或数据库进行数据采集,则需要系统管理员进行相应的审批程序后授权,存在一定的困难。而作为关系型数据库通用查询语言,具有强大数据查询功能的SQL语言,能够方便地在相关系统查询编辑器中获取需要分析的数据。因此,实践中,一般直接用SQL语言在查询编辑器中查询数据后,生成Excel表格或TXT文件,然后通过Power BI的“获取数据”菜单把数据导入Power BI中。 以中石油为例,应用SQL查询语言从企业的SAP HANA数据平台中提取需要分析数据的操作如下: 1.取期末库存数据。运行SAP HANA Studio,进入HANA数据平台,在catalog下寻找物资采购FX_KT子目录,在views视图下,选择“SJS_KT_06_期末库存表”,点击SQL按钮,在右边SQL编辑区输入: SELECT*FROM"FX_KT","SJS_KT_06_期末库存表"where"工厂"='18B4'and"按本币计的金额"<>0 值得注意的是,实践中利用上述SQL语句对公司期末库存的所有数据进行采集,由于计算机内存小,当采集到260万条信息时,计算机死机。因此,对采集的数据,“工厂”字段限定在为“18B4”(某采油厂代码)且金额不为0的记录,见图2。 2.取物料主数据。进入HANA数据平台,在catalog下的FX_WC_V子目录中,选择“SJS_KT_06_期末库存表”,点击SQL按钮,在右边SQL编辑区输入:SELECT*FROM"FX_WC_V"."SJS_WC_物料主数据",见图3。 通过上述SQL语句,采集公司所有的物料主数据导入到Excel表,并经过粗略检查剔除明显错误后,应用“开始-获取数据-Excel”功能菜单,导入Power BI。 (二)数据的清洗 数据导入Power BI后,需要进行数据清洗,主要任务是删除不需要的数据、剔除不正确的字符、规范数据类型、完善数据信息。通过数据清洗,可为后续数据建模和数据分析奠定基础。在Power BI中对数据进行清洗,主要通过功能模块Power Query中的“编辑查询”完成,该“编辑查询”可实现对数据的类型转换、分组、分列、填充、逆透视等,见图4。