内部审计工作日益依赖数据分析来提取有用的审计信息并形成相关审计结论。目前,理论界就构建非结构化数据管理系统进行了大量研究。内部审计人员作为非专业技术人员,面对非结构化数据,能够做什么,做到什么程度,以及如何在继续利用结构化数据的同时,加强非结构化数据的管理,从而最大限度发挥数据分析在内部审计中的作用,是一个值得关注和探索的课题。 一、内部审计中非结构化数据处理的必要性 非结构化数据是结构不规则或不完整、未经预定义、不能用数据库二维逻辑来表现的数据。包括各种格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频等。在业务领域,纸质资料不断被电子信息存储方式所取代。因此,内部审计工作获取的资料中,存在大量电子化的非结构数据。这些数据主要包括以下三类:一是文本类,如被审计单位的人事任命、活动通知、项目立项、资金支出等文件,各单位、各部门自主编制的非结构化的统计、记录、登记资料等。二是图像类,如各类活动的图片资料、各种记录资料的图片格式等。三是视频类,如涉及安全保卫的影像资料,其他用于记录的视频材料等。 以文本、图形、图像、视频等非结构化数据形式提供的审计资料中往往蕴藏着诸多有用的审计线索和审计证据。面对如此巨大的非结构化审计数据,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。一方面,是否对非结构化数据进行处理,关系到审计内容的全面性和完整性,直接影响内部审计的质量。另一方面,能否有效对非结构化数据进行处理,关系到审计的效率和效果,直接影响到内部审计的成效。有效的非结构化数据处理技术能够将非结构化数据全面纳入审计视野,加强数据挖掘的力度,确保内部审计内容的完整性,加大内部审计力度。 二、非结构化数据处理的难点与要点 对审计工作而言,非结构化数据具有大量的价值信息,可用于发现审计线索、佐证审计发现。但非结构化审计数据具有以下特点:一是数据格式多样,异构程度高,内部审计人员难以进行统一处理;二是各类审计资料分散存储在各种媒介或各个部门,内部审计人员进行信息汇集较困难;三是审计资料的内容无序可循,表达无规则。内部审计人员在信息处理及有效信息筛选方面难度较大。这些特点也是非结构化数据处理的难点,处理的难点还来源于数据处理手段的欠缺以及审计人员数据处理基础知识的匮乏等。 目前尚没有成熟简便的非结构化数据处理工具或方法。审计人员还不能像处理结构化数据一样,快捷地对审计资料进行数据挖掘。一是传统数据处理工具在应对非结构化数据方面力不从心。传统关系型数据库采用二维结构,主要面向传统数据分析应用领域,擅长解决结构化数据管理问题,在管理非结构化数据方面先天不足,尤其在处理海量非结构化信息时,更是面临巨大挑战。二是目前非结构化数据处理的经验积累不足,尚未出现技术研究与业务应用相互促进的良性互动。非结构化数据价值日益受到重视,如何对组织内非结构化数据进行管理,已经有一定的探索和实践,但对非结构化数据的处理,尤其是审计人员等非专业人士如何有效处理非结构化数据,经验不足。三是非结构化数据的处理与目前大多数审计人员的知识结构不匹配。非结构化数据由于其本身的数据结构,理解这类数据的处理方式要具备一定的数据处理基础知识和能力。而目前审计人员对财务、法律法规应用等方面比较精通,而对信息技术及其数据处理方式的了解不足;部分对信息技术、数据处理等领域有专门研究的内部审计人员又缺乏对财务等业务知识的了解。另外,非结构化数据与内部审计目标的连接也考验着审计人员对审计目标、审计内容和审计方法的把控能力,对审计人员的素质提出了更高要求。 为有效应对非结构化数据处理带来的困难,内部审计人员应牢牢把握以下三点:一是明确审计目标与非结构化数据之间的关系,有针对性地筛选非结构化数据作为处理对象。二是根据审计对象的不同,厘清审计中涉及非结构化数据的具体种类,为审计数据处理做好准备,并根据实际情况,充分利用目前已经存在的非结构化数据处理方式。三是利用审计的广阔平台,不断探索非结构化数据的种类、数据处理的有效方式,在实践中积累经验和方法。 三、非结构化审计数据处理的逻辑框架 针对非结构化审计数据量大、形式复杂的实际情况,为提高审计成效,避免误入无目的、无方向的数据处理误区,应建立非结构化数据处理的整体框架。 从审计方案中的审计目标着手,逻辑框架向上下两个方向展开(见图1)。向上逐级展开,得到审计发现问题和审计成效;向下逐层展开,确定所需的审计证据及审计数据。向上展开显示的是审计目标实现的价值,向下展开显示的是审计目标实现的过程,而审计目标即审计过程中的操作指南,其实现与否也是审计质量的衡量标准。 整个逻辑框架的中心点是审计目标。审计目标可以细分为各个子目标,是数据处理的出发点,各子目标的实现是审计成效得到彰显的基础。框架的重要内容是围绕各个审计子目标查找相应的审计证据,其过程是通过对各类审计数据的处理找到所需的审计证据,从而实现审计目标。非结构化审计数据的处理是数据处理的有机组成部分,对实现审计目标有着不可取代的作用。 非结构化审计数据的处理包括数据采集、数据归类及预处理、数据挖掘、信息融合等过程。数据的采集是整个数据处理过程的起点,其主要方法有系统导出、零散或集中拷贝、数据自动推送、数据钻取等。对审计资料的归类处理主要是将各类非结构化数据分类,同时根据数据的种类有针对性地进行预处理。一般而言,在内部审计资料中,非结构化数据可以分为文本类、图像类和视频类等,相应地,根据数据的种类,知识挖掘可以分为文本挖掘、图像挖掘和视频挖掘。非结构化数据采集、归类、预处理和知识挖掘的最终目的是将数据处理所得的信息进行融合,得到审计工作所需的描述性结果、诊断性结果,甚至是预测性和自我学习分析性结果。
四、非结构化审计数据处理的方式 针对非结构化数据的特点以及目前的审计数据处理现状,审计中要加强对非结构化数据的利用,重心应放在数据采集、归类处理与预处理、知识挖掘和信息融合等方面,以充分发挥其在审计中的作用。