大数据技术在国家重大政策措施落实情况跟踪审计中的应用研究

作者简介:
审计署上海特派办理论研究会课题组,课题组负责人:居江宁,成员:高杰、王岳剑、安乐、吴俊宏、刘浩、王敏达、陈焱锋、陈思诗,执笔人:居江宁、高杰、王岳剑、刘浩、王敏达、陈焱锋、陈思诗。

原文出处:
审计研究

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2020 年 09 期

关 键 词:

字号:

      对国家审计而言,实施国家重大政策措施落实情况跟踪审计既要促进国家政策措施的有效落实,也要促进政策措施的不断完善,更好实现政策的既定目标。对审计采集的数据信息进行分析,其作用不仅是揭露问题,督促各方整改,更重要的是为政策的制定提供可靠真实的信息,促进政策的修订完善和新政策的出台。真实客观、准确全面的数据信息是开展大数据审计的基础,而对数据进行精准、高效的分析则有助于提升国家审计的工作质量和工作效率。数据分析的效果决定了国家重大政策措施落实情况跟踪审计的效果,影响着国家审计在国家治理体系和治理能力现代化中的作用发挥程度。大数据技术是最前沿的技术,因其高效而精准的特性成为研究的热门,将大数据技术运用到国家重大政策措施落实情况跟踪审计中,将促进国家审计工作效能更上一个台阶。

      大数据在国家重大政策措施落实情况跟踪审计中的应用研究目前仍然不多,已有的一些研究大多是提出了一些构思,并未深入到审计应用中。本文将Python、Neo4j等相关大数据技术工具运用到国家重大政策措施落实情况跟踪审计实践之中,通过学习大数据技术,深入了解技术层面知识和应用,分析国家重大政策措施落实情况跟踪审计的特点,找到大数据技术与国家重大政策措施落实情况跟踪审计的结合点,利用大数据技术推动审计工作的高效开展。

      二、大数据技术研究

      (一)Python技术研究

      Python是一种跨平台的计算机程序设计语言,具有语言简洁、易读并且可扩展等特点。随着版本的不断更新和语言新功能的添加,众多开源的科学计算软件包都提供了Python的调用接口,Python专用的科学计算扩展库更是数不胜数。在大数据审计中,审计人员可以通过已有的Python扩展库或者软件调用接口,快速实现对审计数据的提取、清洗、加工等。

      1.使用Python获取数据

      审计数据一般来源于文件、数据库以及网络。Python内置强大的文件读取模块,能够读取各种类型文件,包括word、excel、txt等。Python的标准数据库接口支持多种数据库,包括Oracle、SqlServer、Mysql等常用数据库,审计人员可以根据需求下载Python扩展库中相应的模块,连接数据库后,通过执行查询代码等方式完成数据查询和提取。除了文件数据和数据库数据,在审计过程中,审计人员有时还需要从互联网中收集有价值的信息,而使用Python的request库就能够实现网络信息抓取。当然,在此之前,需要审计人员使用浏览器自带的检查功能,了解网页页面结构,才能有针对性地收集获取审计相关数据。

      2.使用jieba进行文本关键词提取

      jieba是Python中常用的分词工具,支持多种分词方式。利用Python中的jieba工具能对每一份被审计的文件内容进行分词,去除标点符号以及“啊”“的”等停用词,再利用TF-IDF(词频-逆文档频率)提取出每个文件中出现频次高、文档内部权重大的词。结合PyTagCloud标签云可视化工具,以图的方式直观展现被审计文件的整体概况。

      3.使用Gensim进行文本相似度计算

      Gensim是一款开源的第三方Python工具包,用于从非结构化的文本中,无监督地学习到文本隐层的主题向量表达,即利用该工具可以将长短不一的文本数据映射到同一大小的向量空间。在审计过程中,往往会查询和某一文件相关的被审计文件,此时审计人员就可以利用Gensim为每一个被审计文件计算对应的向量,再通过模型计算被审计文件和查询文件的相似度,快速定位到相似度值最大的几个文件,进而提升文件查阅效率。

      4.企业依存度计算

      在审计工作中,通过企业的依存关系来发现疑点,是一种常用的数据分析手段。一般来说,税务发票数据能够完整反映企业经营的实际情况。在过去,计算企业的依存关系就是将企业作为销方,检索增值税发票数据库找到该企业一段时间内所有的发票,最后统计发票中企业对应各个购方占销售总额的比例,如此便可看到该企业日常经营的依存关系。这一思路在过去很多工作中取得了良好的效果,如果利用Python自动将所有企业的依存关系一次性计算完成,这无疑会极大提高审计人员工作效率。

      本文在A省国税数据上进行了初步尝试。由于增值税数据量大,如果直接在全量数据上进行汇总,需消耗的计算机资源是无法承受的。因此,我们考虑按一家一家企业进行汇总统计。具体做法如下:首先,利用Python的cx_oracle扩展库连接到税务数据库,可以直接在Python程序中编写语句查询数据库,并且该库支持按逐行记录进行读取,避免了一次性获取整个库时出现计算机内存不足的问题。通过这一方式,读取增值税发票数据中获取发票记录中销方和购方中涉及的所有企业名,写入本地文本文件,获得了C市税务数据中所有的企业名单文件。接着,利用Python读取企业名单文件中的企业名称,每读取一个企业名a,同时为其构造增值税发票的查询语句,获得a在一段时间内作为销方的所有发票,这时候读取到的数据是一个行列表。Python中的Pandas库自带对表格数据的分类汇总功能,利用Pandas将查询结果先转换为DataFrame格式,再对每一个购方企业b涉及的金额进行汇总统计,最后将b的汇总金额除以总金额得到一个比值x,这一比值就是企业a对b的依赖度。将企业a、企业b、依赖度x作为一条记录,写入企业依赖度的csv文件。然后,利用oracle导入工具将csv文件导入到数据库表中。这样,审计人员想要找指定企业的依存度便可以直接查询数据表即可,为审计人员节约了大量分析时间。

相关文章: