大数据驱动的审计知识库建设与应用

作者简介:
黄佳佳,李鹏伟,徐超,南京审计大学信息工程学院

原文出处:
财会月刊

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2022 年 04 期

关 键 词:

字号:

      在信息爆炸的时代背景下,审计对象所产生的数据量日益庞大,进而对现有审计数据基础和审计分析方法提出了新要求。国家审计署相关领导也指出,应推进以大数据为核心的审计信息化建设,构建大数据审计工作模式,积极开展审计大数据的综合利用。讨论和运用大数据思想与技术创新当前审计工作模式就不可避免地涉及对审计文本大数据的处理。现有关于大规模文本数据的研究和应用大多是采用互联网文本,如微博、新闻、网络评论等,而采用审计领域相关文本的研究相对较少。人工智能领域专家认为,有效利用大数据价值的主要任务不是获取越来越多的数据,而是从数据中挖掘知识,对知识进行有效的组织关联,并用其解决实际问题。从大数据技术与不同领域结合应用的效果来看,大数据技术的应用效果也与领域高度相关,即当拥有领域相关知识支撑时,往往文本挖掘技术的应用效果更佳。本文总结分析了审计文本数据的来源及特点,认为审计文本具有领域特殊性,因此有必要构建审计领域知识库,使得采用大数据分析方法和人工智能文本分析方法分析审计文本时准确性更高、可理解性更强。

      在大数据时代,知识图谱不仅改变了搜索模式,也改变了文本分析技术。知识图谱与语义分析相结合可使得语义搜索更加准确、智能推荐更称心如意,也可以实现自动问答、人机对话等新智能体验。审计作为一项具有较多专家经验参与其中的工作,基于大数据构建的审计知识图谱可以帮助审计人员快速排查审计风险点、有效提升审计工作效率、降低审计风险,进而实现审计智能化。基于此,本文提出了一种大数据驱动的审计领域知识库构建方法(该审计知识库可对外开放共享),并探讨了其在审计业务中的应用方式。

      二、文献综述

      学者们普遍认为审计所用的数据早已超越了统计和抽样调查,审计数据具备海量、异构、多样等大数据特性。秦荣生认为大数据有助于实现审计监督全覆盖,而数据综合分析可帮助提升解释审计问题和风险的深度与广度。在审计技术方面,有学者开始考虑文本挖掘在审计领域的应用。张志恒等构建了审计领域的文本挖掘框架,并探讨了若干种文本挖掘方法在审计领域的应用,为文本数据审计提供了新方向和新思路。此外,也有学者将文本挖掘方法应用到审计实务中,主要包括文本关键词抽取与标签云展示、文本相似度计算、文本情感分析、关联规则挖掘等,采用这些技术的目的是从被审计单位的相关文件中发现审计疑点、总结投诉人员特点、评估被审计单位政策执行情况、评估银行信贷申请报告的情感倾向、挖掘上市公司的交易网络和审计费用与盈余质量的关系等。

      当前审计文本数据挖掘主要是直接利用现有文本挖掘算法,鲜有研究深入考虑审计领域专业性对文本挖掘方法的挑战。顾圣杰等探讨了知识图谱在审计风险识别方面的应用价值,认为基于专家先验知识的知识图谱能够提升审计效率、实现审计智能化和审计风险点全覆盖。在通用领域,国内外学者已构建的代表性知识库包括Freebase、WordNet等。但这些知识库并非为审计领域专门构建的,因而其可能没有包含审计领域专业词汇,以及这些词汇/概念的语义信息及相互之间的关系。

      三、审计大数据与文本数据审计

      大数据时代的到来给政府和企业的财务管理和审计工作都带来了巨大变化。这种变化不仅意味着审计数据规模越来越大,而且意味着审计技术与方法具有大数据特征。

      1.审计大数据。多数学者认为,进入大数据时代后,审计环境、审计数据与审计技术等都需要或者正在发生较大变革,审计正在进入审计大数据时代。那么,什么是审计大数据?吕天阳等认为,审计大数据是“在大数据时代开展审计监督所需的审计对象自身或与其相关对象的各类数据及其分析手段的统称”。

      由于审计对象自身提供的财务数据可能存在造假等问题,因而无法满足审计需求。当前的合规性审计所需数据越来越多样化、多元化。此外,国家审计也在关注绩效审计、政策落实跟踪审计等。这些审计内容涉及的数据来源范围广、覆盖面大,使得国家审计需要在原有审计数据基础上进一步扩大数据来源,综合使用不同部门提供的数据,如财政部、商务部、国家统计局等。

      可以说审计大数据的数据来源是以领域政务大数据为基础,并包括与各审计对象相关的社会大数据与互联网大数据。这些数据来源不同、类型各异,整合和有效利用大规模的审计数据变得更加困难,进而对审计技术提出了更高的要求,即以关系数据为基础的传统SQL查询分析手段已显得捉襟见肘。赵琛认为,面向非结构化文本、面向对象间网状关系的智能分析方式是未来审计技术创新的重要方向。

      2.文本数据审计。在审计大数据时代,海量的多源异构数据极大地拓展了审计数据的范围。例如,在企业内部审计中,审计对象已不再局限于与被审计单位财务相关的数据,被审计单位内部的规章制度、会议记录、合同通知等文本数据也是重点审计对象;此外,与被审计单位相关的互联网文本,如单位新闻、股票评论等也具有重要的辅助价值。通过对非结构化文本的分析挖掘,可以更加全面地评估被审计单位的内部控制情况、违法违规问题等。

      在面向文本数据的审计工作中,常用的文本挖掘技术包括文本检索、关联特征挖掘、分类、聚类、提取关键词、构建文本摘要、结果可视化等。例如:通过文本检索技术可使审计人员快速找到相关法律法规,也可快速检索到被审计对象的相关文档,如通知公告、政策文件等;通过文本相似性分析(如聚类、分类)技术分析银行信贷客户的调查报告可迅速评估报告编写员工的履职情况,进而有效降低内部控制合规风险。

相关文章: