基于文本数据分析的大数据审计方法研究

作者简介:
陈伟,勾东升,徐发亮,南京审计大学;山东省淄博市审计局

原文出处:
中国注册会计师

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2019 年 01 期

关 键 词:

字号:

      近年来,大数据技术的研究与发展为审计工作带来了机遇和挑战,目前国内外高度关注大数据技术在审计工作中的应用,探索在审计实践中运用大数据技术具有重要的应用价值和理论意义。由于目前被审计单位信息化程度高,信息系统复杂,需要采集和审计的各类数据较多,且不仅仅是数据库中的电子数据,还包括一些政策文件、项目信息、董事会会议记录、董事会会议决议、总经理办公会记录、会议决议单、办公会通知、办公文件,以及内部控制手册、信息系统使用手册等非结构化材料。因此,如何对文本格式的非结构化数据进行分析是开展大数据审计的一项重要内容。本文结合目前大数据审计的研究与应用现状,探索基于文本数据分析的大数据审计方法。

      二、常用审计方法的不足

      常用的审计数据分析方法包括账表分析、数据查询、审计抽样、统计分析、数值分析、数据相似检测等,这些方法多是针对结构化数据进行分析,而对于文本数据等非结构化数据则不能进行有效的分析。以统计分析方法和数据相似检测分析为例,其特点分析如下:

      1.统计分析方法

      常用的统计分析方法的应用示例如图1所示,这种统计分析方法多是针对数值型字段进行分析,而不能针对字符型字段中的文本数据进行统计分析。

      2.结构化数据的相似检测方法

      对于数据库中的结构化数据,通过数据相似检测,可以判断两个数据表中的两条数据是不是相似重复数据,目前在审计中已有相关应用,例如,大数据环境下从不同地方采集来的被审计数据中,被审计数据A中出现的数据不应该出现在被审计数据B中。通过数据相似检测技术可以有效地发现舞弊案件。其中,两个数据表中对应字段的相似度计算是关键,对于不同类型的字段,一般采用如下不同的计算方法:

      (1)布尔型字段相似度计算方法:对于布尔型字段,如果两字段相等,则相似度取0,如果不同,则相似度取1。

      (2)数值型字段相似度计算方法:对于数值型字段,可以采用计算数字的相对差异算法:

      

      (3)字符型字段相似度计算方法:对于字符型字段,一个字段可以看成是一个字符串,字符串的相似检测最主要的方法是基于编辑距离算法。通过采用编辑距离算法,可以计算出两个字段间的编辑距离,进而计算出字符型字段的相似度(图1)。

      综上可知,目前常用的审计数据分析方法多是针对结构化数据。大数据环境下,需要审计的不仅仅是数据库中的结构化数据,还包括一些政策文件、项目信息等非结构化数据。因此,常用的审计方法不能满足大数据环境下审计工作的需要,其中,研究如何对文本数据进行审计非常重要。

      三、基于文本数据分析的大数据审计方法

      (一)基于文本数据分析的大数据审计方法原理

      

      大数据环境下大量的文本数据使审计人员分析的难度越来越大,传统的浏览和筛选等方法无法满足大数据环境下文本数据等非结构化数据审计的需要,对非结构化数据进行可视化分析,是大数据审计研究与应用的重要内容。将文本数据中的内容或规律以视觉符号的形式展示给审计人员,有助于审计人员利用视觉感知的优势来快速获取大数据中蕴涵的重要信息,从而发现审计线索。对大数据审计来说,文本内容可视化主要是为了快速获取文本数据内容的重点,快速理解文本的主要内容,可以采用基于词频的可视化技术,如采用TF-IDF技术、标签云的可视化形式进行展示。

      基于文本数据分析的大数据审计方法原理可概述为:根据对被审计单位的调查,在访谈和现场观察等基础上,采集被审计单位的内外部相关信息如政策文件、项目信息、董事会会议记录、董事会会议决议、总经理办公会记录、会议决议单、办公会通知、办公文件、项目安排、相关年度资金计划安排、项目工作总结、相关项目绩效评价报告等非结构化数据,以及从外部网上公开数据源采集来的相关文本数据;然后,在审计大数据预处理的基础上,基于“总体分析、发现疑点、分散核查、系统研究”的审计思路,采用大数据工具对相关文本数据进行分析,审计人员通过对可视化的分析结果进行观察,快速从被审计大数据信息中发现异常数据,获得审计线索;在此基础上,通过对这些结果数据做进一步的延伸审计和审计事实确认,最终获得审计证据。综上分析,基于文本数据分析的大数据审计方法原理如图2所示。

      (二)相似度分析

      1.相似度分析方法的原理

      大数据环境下,相似度分析是目前有效的一种文本数据审计方法。大数据审计环境下,有时需要分析文本数据之间是否相似,成熟可行的方法可以采用?TF-IDF(Term Frequency-Inverse Document? Frequency,词频-逆文档频率)技术,它是一种常用的自然语言处理(NIP,Natural Language Processing)方法,TF-IDF的主要思想是:根据字词的在文本中出现的频率和在整个文本库中出现的频率来计算一个字词在整个文本库中的重要程度。如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文本中出现的很少,则认为该词或者短语具有很好的代表性,适合用来分类。TF-IDF可用于比较两个文本文件相似程度、文本聚类、文本分类等方面。TF-IDF的计算步骤如下:

相关文章: