为适应高等教育改革的实际需求,我国大部分高等院校进行了审计机构设置的优化,并且在审计内容、制度以及技术方法方面取得了一定的进步,但仍存在一些问题。尤其是在大数据环境下,各种财务问题隐藏在海量数据中,财务舞弊手段更加隐蔽,以抽样为主的传统审计方式难以发现这些问题,如何强化检索功能以确保能够从海量数据中识别出真正有价值的信息成为高校财务审计顺利开展亟需解决的问题,创新审计思维、调整审计方式成为必然。领域知识图谱由通用知识图谱演化而来,除具备知识表达优势外,更是在深度上进行了扩展。领域知识图谱能够与组织内部环境相适应,符合“适度”原则即适配特定的应用场景且能够对知识的边界与体量予以合理把控,基于语义网络模型将知识之间的隐含关联关系可视化,建立类与类之间的联系,以用户为核心提供智能检索以及疑点识别等功能应用。将领域知识图谱与高校财务审计结合,可以为知识图谱上的分布式推理找到应用场景,利用领域知识解决具体应用问题,将审计数据融合从繁重的手工整合中解放出来,为审计人员提供审计线索及时识别异常经济业务,满足高校财务审计的实际需求。 随着社会信息技术的发展,高校开始越来越多的应用财务管理平台,能够有效避免人为记账失误,会计信息化得到了长足的发展,被审计单位的财务账也因平台内部规则控制而趋于完善。当被审计单位存在多套账目等舞弊行为时,审计人员会以业务活动作为突破口进行“小问题”的控制,但难以从“完善”的财务入手发现隐藏的“大问题”。在高校财务审计中应用领域知识图谱,适应了人工智能时代下的发展需求,能够存放更多的大数据,进而构建一个知识引擎从大数据中提取更多的价值,即简单的知识工作由机器替代人工,行业知识赋予机器,由机器进行数据的理解、分析、研究和利用,通过人工智能化促进行业的发展。同时,向机器赋予领域知识,人力劳动得到进一步解放,充分运用机器的无限记忆力缓解市场对劳动力资源的需求。基于领域知识图谱建立财务与业务指标的语义网络,可以将业务流程和财会流程合理关联在一起,数据与知识的使用将从传统的被动式定制获取变成主动式按需获取,进一步挖掘财务、业务信息之间的关联,进而有利于审计方向与审计重点的把握。 二、高校财务审计领域知识图谱的构建 为确保会计信息的准确性和真实性,高校审计人员会重点对财务计划、财务预算、财务收支控制、会计凭证、会计账簿、会计报表以及债权债务等方面进行复核与稽查,保证财务工作正确贯彻执行国家的各项财经政策和财务制度。随着高校活动涉及应用系统的增多,财务信息量扩大,这些数据表面杂乱无章、联系甚少,但内部隐藏着大量有价值的逻辑与知识,并且蕴含着高校的运作模式、经营状况以及发展趋势等信息。传统审计模式下对比、相关分析、聚类分析等数据分析方法大多是对原始数据集进行过滤或者抽样,然后对数据样本进行分析以寻找特征和规律,即从有限的样本空间中通过复杂的算法获取尽可能多的信息。但是,传统数据分析方法在处理规模较大数据集合时的效率无法达到用户预期,只能被动地进行观察、观测,难以使用有限的数据来发掘出隐藏在背后的逻辑与知识,且对非结构化数据的适用性较低。将领域知识赋予机器,能够充分挖掘隐性的决策因素,进一步提高机器生产力、释放劳动力资源、降低人力成本。应用领域知识图谱能够建立有效的关联强度判断体系,将其应用于智能检索与审计疑点挖掘,可以实现审计信息的语义性推理,解决审计力量不足问题,提高审计工作质量。 领域知识图谱的构建涉及众多技术手段,系统性较强,其实质属于领域知识获取过程:明确数据来源,以降低知识获取代价为标准需验证质量较好、结构化程度相对较高的数据源,并对数据进行预处理;基于自上而下、自下而上两种不同角度实现实体识别,领域词汇只是识别出领域中的重要短语和词汇,还需对实体进行实体归类;利用主题模型进行特征词的有效提取,将给定的实体分类到某个已知关系;根据具体应用场景调整权重,完成实体对齐、属性融合、值规范化,识别同一属性的不同描述,生成知识图谱。基于该思路,可演示领域知识图谱构建流程如下页图1所示,且将构建的高校财务审计领域知识图谱整体划分为多个模块。 (一)高校财务审计数据获取模块的构建 知识获取、知识表示、知识管理、知识应用是领域知识图谱系统生命周期的四个重要环节。内部业务数据的转换、外部业务系统的导入、通用百科图谱的导出、互联网上的领域百科爬取均属于领域知识图谱的数据来源。针对高校财务审计,遵循的法律法规、历年财务数据、历年审计报告、上级主管部门与组织架构等单位概况、内部控制制度均为重要的数据来源,需要构建法律法规库、审计案例库、审计术语库以及被审计单位原始数据库四个初始数据库。同时,采取技术手段结合全面获取数据信息,直接索取获得被审计对象历年财务报告与审计报告,通过互联网python爬取法律法规、审计案例信息以及审计相关知识,通过高校官网python爬取内控制度等信息。高校财务审计数据获取模块流程具体演示如图2所示:
(二)高校财务审计数据预处理模块的构建 模型预测和泛化能力受数据质量的直接影响。通过上一模块获取的高校财务审计数据可能包含了大量的噪音或者缺失值,不利于算法模型的训练。数据预处理主要对各种“脏”数据进行对应方式的处理,得到连续的、干净的、标准的数据,提供给数据统计、数据挖掘等业务使用,其流程如图3所示: 数据预处理可以提高数据的质量,从而有助于提高后续学习过程的精度和性能。高校财务审计涉及的结构化数据多为直接从财务部门拷贝出来的财务数据,对其进行预处理着重进行业务属性与财务属性的识别,需要以会计科目和摘要为主要参照。半结构与非结构化数据为高校财务审计数据预处理模块重点解决的问题:首先,输入数据,识别数据涉及的特征属性,进一步采用文本匹配方法输入类别为“高校”的文本属性定位可用信息;其次,为文本处理做准备,将文本的内容主题清晰化,通过模块段落识别模型输入审计报告、被审计单位内控制度、审计案例、法律法规等文本划分段落,以段落标题作为主题;再次,采用关键字表达方式来统一文本用语特征,分析审计案例与审计报告形成审计疑点库;最后,将识别出的句子通过结巴分词器等分词技术予以词语划分并进行类别归类,例如将对外投资、无形资产、在建工程、固定资产、流动资产归类于高校资产管理,将经营收入、上级补助收入、科研事业收入、财政拨款等归类于高校收入。