审计知识图谱的构建与研究  

作者简介:
王瑞萍,刘峰,杨媛琦,邢春玉,国网冀北有限责任公司审计部,北京信息科技大学信息管理学院

原文出处:
中国注册会计师

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2020 年 11 期

关 键 词:

字号:

      知识图谱(Knowledge Graph)是显示知识发展进程与结构关系的一系列各种不同的图形,又被称为知识域可视化或知识领域映射地图,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。随着大数据技术的发展以及海量数据转化为知识时代的到来,知识图谱技术能够从海量非结构化数据(如文本和图像)和结构化数据中进行知识获取、知识共享,并在大数据时代进行知识创新。知识图谱可以高效、直观地描绘出目标对象(如企业,事件等)之间的相关网络,并在多维视角实现对象的真实情况和错综复杂的关系。在企业的实际业务中,面对海量繁多的财务会计凭证、账簿、报表及电子数据等信息,审计人员常常通过抽查来发现问题。知识图谱技术的出现,提供了更高效的审计,提高审计工作效率,可以作为经典审计方法的补充,在理想情况下甚至可以做到全面排查总体,这样不仅能避免审计抽样的风险,同时也降低了审计工作的复杂性和总体风险。本文基于百度问答的数据,对审计领域的一些常见知识进行了收集,基于多源异构审计数据,构建了结构化审计数据库,并通过可视化工具,进行初步的可视化分析产生可视化图表,对审计信息进行分析和使用,有助于审计信息使用者快速了解特定领域的审计知识,为审计需求相关方的决策提供参考价值。

      一、研究回顾

      知识图谱的应用大概分为通用知识领域和行业知识领域。通用知识领域的应用主要包括智能问答系统,如Google。Google知识图谱是在Freebase的基础上研发的,Freebase是由Kurt Bollacker,Robert Cook,Patrick Tufts(2007)提出的通用人类知识数据库。该数据库具有实用、可扩展、图形化、结构化的特点,其灵感来自语义Web研究和协作数据通信,如Wikipedia。Freebase允许通过HTTP的图形查询API进行公共读写访问,用于研究、创建和维护结构化数据以及应用程序构建。近年来,国内学者还开发出一款类似Google的大规模开放知识图谱—-Zhishi.me。Zhishi.me是从互动百科、百度百科和中文维基百科中提取实体信息,并协调来自各个来源的知识以获得规范的数据集,该图谱的规模虽不及Google研发的知识图谱,但是却也包含大约1000万个实体(周盛威,2018)。

      知识图谱行业知识领域的应用主要有医学领域、金融领域等。医学领域方面,张崇宇(2019)提出面向临床医疗知识图谱的自动问答方法,主要依托于构建的临床医疗知识图谱的实体、关系及属性,通过数据冷启动机制生成语料,然后基于一种网格Bi-LSTM-CRF算法的医疗实体识别和基于字——词编码CNN模型的关系/属性映射方法来完成问题的语义解析任务。然后通过业务分流和查询逻辑转换为Neo4j图数据库,最终实现医疗应用场景的知识图谱自动问答系统。在金融领域方面,张芸芸、方勇、黄诚(2018)提出基于Neo4j图谱检测信用卡欺诈的方法,通过图数据库直观显示数据集的特征,并通过FICO评分标准建立FICO模型,研究表明,该方法可以显著提高信用卡欺诈的识别率。

      信息可视化在可视化技术中占有重要地位,通过将抽象数据进行可视化展示,从而加强人们对数据的认知及数据获取效率。Bernal于1938年绘制学科图谱,但知识图谱在我国于2005年开始流行,相比于国外兴起较晚。目前,国内外关于知识图谱的可视化工具层出不穷。国外最为经典的知识图谱可视化分析软件是CiteSpace,它是一款针对科学文献的可视化分析工具,用于计量特定领域的文献,从而探寻该学科的发展方式和知识变迁。该软件适合复杂的网络关系可视化分析,但是CiteSpace被运行在java平台,适合专业基础较高的人,使用门槛高。国内,Plantdata是一款较为成熟的知识图谱可视化平台。与传统知识图谱的可视化平台不同的是,Plantdata加入了时间属性,支持仪表盘功能,并加入交互操作。其最为出色的一点是支持快速搭建高效精准智能深度搜索系统,并以不同的形态展现给用户,通过对多个维度进行分析,帮助用户做出决策(杨卓,2019)。

      经过以上对国内外研究的分析和比较,可以看出知识图谱及其可视化服务正在迅猛发展,并开始逐步应用至各行各业。知识可视化的实质是将内容用图形的方式表示,更符合人们对信息的感知与理解,从而进行知识传播(刘琦,2018)。在企业审计领域中,由于审计知识领域涉及范围较广,审计知识之间的关系纷繁复杂,存储、组织和表达方式较为松散,缺乏有效的管理。另外,审计知识检索的效率不高,无法进行关联知识的深度检索。由此可见,将知识图谱与可视化技术运用至企业审计领域中,与检索者产生交互,显示地表达知识的整体性与关联性,将对知识的传播起到推动作用。同时,企业也可通过运用审计知识图谱,将传统的业务推动数据模式转化为数据推动业务模式,提高审计的效率,挖掘不易发现的审计数据,为企业决策提供参考价值(樊世昊,2018)。国内外对于实现信息化审计的研究仍处于起步阶段,由于审计领域涉及范围较广,实现全面的大数据审计仍有难度。目前,虽有一些学者将知识图谱应用在审计领域中,但尚无较为成熟的应用。

      二、基于Neo4j图数据库的审计知识图谱的构建

      在审计领域中,由于审计知识领域涉及范围较广,审计知识之间的关系纷繁复杂,存储、组织和表达方式较为松散,缺乏有效的管理(刘琦,2018)。另外,审计知识检索的效率不高,无法进行关联知识的深度检索。对此,Neo4j图数据库的存储结构与领域知识存储与查询功能,不仅能良好地支持知识库中实体关系的管理,还能对知识进行快速查询和清晰展示(叶帅,2019)。为了实现审计数据的信息化,知识图谱中的语义关联可以有效地整合多元异构审计数据。知识图谱的数据通常以三元组(S,P,D)的形式来表示实体、关系、属性之间的关系,因此,本文用Neo4j图数据库实现实体及实体关系的存储,构建审计知识图谱。Neo4j是一种图形数据库,是目前图形数据库中使用率最高的库,Neo4j具备本地存储和数据处理的功能,与一般的数据库有显著的区别,它能够保证数据的完整性和高读写性。审计知识图谱构建的目的是将经典的审计方法与知识图谱可视化方法相结合,从大量的企业结构化和非结构化文本中自动提取三元组,构建审计的知识图谱,方便审计信息使用者快速抓取信息,有助于审计决策的制定和实施。因此,本文从以下几个方面入手,具体探讨审计知识图谱的构建过程。

相关文章: