在当前大数据环境下,各类信息化、数字化技术层出不穷并不断发展和深度融合,为审计工作思路与工作模式的优化、调整、完善提供了有力基础。随着近几年的探索,国内通信企业基于“云计算”等技术相继构建了各类审计作业系统,通过审计建模实现了对高风险领域的全覆盖和准实时。审计工作“原力”的海量业务数据作为审计证据后,将对审计成果产生几何倍数的影响。如何将海量的业务数据变为准确的审计数据,已成为大数据环境下开展审计的重要“痛点”。可以说,现阶段审计工作的难点是让海量业务数据脱离其原始特征转变为精炼的、具备高价值审计含义的数据,从而最终生成高质量审计成果。 一、机遇与挑战 业务数据的日益庞杂、审计信息化系统的逐步建立、数据审计体系的逐步完善,为进一步实现内部审计工作价值带来了机遇和挑战。 (一)数据的多维 通信企业信息化水平程度整体较高,各类网络运维、运营生产、企业管理均有系统平台支撑,进而造成数据的维度极其丰富,各数据域的数据间相互影响,但关联度低。任意用户或产品背后就有多达数百项的属性数据。如何将各数据域间的数据加以整合,从丰富多维的数据挖掘有价值的审计线索,存在一定困难。 (二)数据的多变 企业为应对市场的需求、行业的监管、业绩的考核等都需要不断优化业务,通信领域的技术日新月异,势必带来数据的变化。这些变化,不仅只是数据项的新增和删除,还存在大量数据属性、类型等的变化。行业“战场”环境复杂多变,这些重要的作战数据如何时刻“保鲜”,有效服务于审计,正逐渐提上数据审计支撑工作的日程。 (三)数据的多样 在信息社会,数据可以划分为两大类:一类能够用统一的结构加以表示,称之为结构化数据,如数字、符号等;一类无法用数字或统一的结构表示,如文本、图像等,称为非结构化数据。过去几年,业界更多关注的是如何处理海量和异构的数据,从中挖掘审计价值,这其中绝大多数是结构化数据,但这些只是企业运营数据中的冰山一角。实际上,企业运营的数据资料中80%都是以文件形式存在的非结构化和半结构化数据,包括纸质文件(合同等)、图片(现场记录等)、手工凭证(发票、台账等)等。如果能够充分利用这些数据,将能大大降低现场审计压力,全面实现由数据驱动的远程审计,提升审计效率和质量。 二、基于业务数据审计标签化的数据审计体系设计与构建 为应对上述机遇与挑战,笔者初步提出构建基于业务数据审计标签化的数据审计体系。该体系的核心是对业务数据的潜在审计价值进行深度挖掘和开发,通过类自然语言构造基础审计标签库,对目标业务数据输出审计标签,并据此打造审计数据集市,辅以相关数据审计作业流程。实现让业务数据直接展现审计含义,使审计人员摆脱对海量元数据的基础分析,直接应用审计标签开展工作。进而为企业提供更具有战略性、系统性、参谋性和前瞻性的审计建议,促进企业健康发展,提升企业运营管理效率,实现内部审计的高价值转型。具体模型如图1。
(一)审计标签化 1.标签的定义 审计数据标签化是对某数据集合的一种或多种稳定的审计特征进行分析和描述,由多个可定性的属性条件或特征标识组合而成,从而使该数据集合脱离元数据属性,形成高度精炼的、具备审计含义的数据子集。 2.标签的建立 笔者采用类自然语言构造基础审计标签库,通过多种方式建模,对目标审计数据输出标签,实现对各系统业务数据的标签化,将元数据中具备审计价值的信息剥离出来。 (1)逻辑层次 审计数据标签化构成逻辑模型如图2所示。
该模型由元数据层、处理层、标记层及应用层组成,在标记层与配置域进行参数交互。 元数据层向所有标记过程提供元数据,这里主要是CRM、OA、ERP等结构化业务运营数据。 处理层从元数据层获取数据后,按照预先定义的类自然语言审计标签,通过固有基本属性分析、基础信息处理、用户行为推测分析、数据挖掘4个方法建模,对目标审计数据进行分析处理,向标记层输出已标签化的审计数据。 标记层负责对标记后的审计数据进行分类汇总,形成可被审计使用的标签化数据。 应用层主要是提供给审计人员使用,让审计人员结合审计项目需要,对标签化数据进行抽取,采用交叉、组合、时序、关联等分析,结合访谈、审阅等,最终形成审计发现。 (2)举例 ①固有基本属性分析 通过对业务数据中已定义的结构化数据信息对其进行建模,得出符合审计逻辑的标签。以主标签“异常证件地址”为例,对用户的基本属性信息“证件地址”进行分析建模: 子标签为“同址不同号”,口径为:用户证件地址完全相同,但证件号不同。 子标签为“证址不符”,口径为:用户证件地址省份与证号前2位归属省编号不一致。如:XX省份证件号前2位为34,但证件地址省份为其他省(其中也存在正常的转户籍情况)。 ②基础信息处理 通过对基础信息进行分析处理,构造模型,得出符合审计逻辑的标签。以主标签“集中呼转”为例,对用户呼叫转移业务操作记录、通话记录进行关联分析建模。 口径为:首先分析通过后台工号(如:10086,网厅等)受理呼叫转移操作,超过N个用户呼转至同一号码;然后分析该批用户连续M个月的通话记录,对其中周期内仅通话A次或通话时长低于B分钟的定义为“集中呼转”。