孤立点分析方法在现代审计中的运用研究

作 者:

作者简介:
魏克哲,云南民族大学管理学院

原文出处:
财会学习

内容提要:


期刊代号:V3
分类名称:审计文摘
复印期号:2013 年 07 期

关 键 词:

字号:

      本文基于数据挖掘技术中的孤立点分析方法来发现一些异常的审计现象,孤立点分析方法先对这些大量的审计数据进行预处理(除噪),然后建立数据挖掘模型,运用此模型分析出具有一定特征且小比例的异常数据,供审计人员决策分析时参考。

      一、孤立点分析方法

      孤立点分析是数据挖掘技术中用来检测审计数据中异常数据的一项重要技术。由于审计分析中的疑点数据往往表现为孤立点,通常情况下,在对被审计数据进行分析时,常常选择孤立点分析技术。

      (一)孤立点

      孤立点是数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。在聚类分析中,有的数据对象不属于任何的类或簇,这样的数据对象在聚类中称为噪声,而在孤立点分析中,则称为孤立点。孤立点是个相对的定义,特别地,在审计领域,审计数据初始分布模型假设的不同,或研究者在不同的检测背景下,都会得出不同的结论。

      鉴于很多人为或非人为的原因都会导致孤立点的产生,如人为执行错误或人为故意操纵数据为达到某种目的而致使孤立点的产生,再如仪器测量错误、系统故障、数据总体中的自然偏差或固有的数据变异都会导致孤立点的产生,我们要对孤立点产生的原因进行全面分析。但最重要的是,审计人员要对这些孤立点保持敏感性,并分析出孤立点背后产生的深层次原因,来获取有价值的审计信息。

      (二)孤立点分析方法

      1.孤立点分析方法的概念

      孤立点分析方法可简述为:给定一个有n个数据点或对象的集合及预期的孤立点数目k,发现与剩余的数据相比是显著异常的、孤立的、或不一致的前k个对象的过程。因此,孤立点分析实际上可以被看做两个子问题:

      (1)在给定的数据集合中定义什么样的数据是不一致的;

      (2)找到一个有效的方法来检测这样的不一致数据。

      2.孤立点分析方法介绍

      (1)基于统计的方法

      当数据集的概率分布及参数(如正态分布、泊松分布等,均值、方差)已知或需经多次验证并试图得出数据真实的概率分布或参数特征时,一般使用基于统计的方法。此方法尤其用于数值型数据。孤立点的确定主要是通过检验偏离统计模型的不一致数据,并统计出其个数,分析其性态。

      (2)基于距离的方法

      Knorr和Ng提出了一种体现孤立点本质的定义,即若一个数据对象与数据域中大多数对象之间的距离(相异度)都大于某个阈值,将此数据对象确认为一个孤立点。阈值的设定是在对被审计数据清洗,并检验其有效性之后,据审计数据所属行业的特点,将行业常规值预先设定为阈值,或经公式计算得出阈值。此方法有效地避免了基于统计方法中数据分布特征确定的问题。

      (3)基于偏离的方法

      基于偏离的孤立点挖掘是通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。此孤立点挖掘有两种常用的技术:第一种序列异常技术,是一种基于相异度函数(往往是审计数据集的总方差)的有效方法,预先定义样本集的一般特征,其余“偏离”这些特征的样本属于异常样本。第二种OLAP数据立方体技术,在审计时,对那些标为异常的单元下钻,可能会发现更细节或较低层次的异常。

      (4)基于密度的方法

      Breuning等人基于密度聚类思想的启发,于2000年提出了一种基于局部密度来检测孤立点的新方法,通过该数据对象周围区域的局部密度,与它邻近的局部密度之比来确定该对象的局部孤立点因子(Local Outlier Factor,LOF),LOF的值越大说明该对象越可能是孤立点,需引起审计人员多加注意。该方法对发现局部孤立点有很好的效果。

      (5)基于距离和密度的聚类和孤立点检测方法

      基于距离和密度的聚类和孤立点检测算法(Distance & Density Based Clustering and Outlier Detection Algorithm,简称DDBCOD),是将基于距离和密度这两种方法融合来确定聚类和孤立点。经过反复验证,证明融合了两者优点的DDBCOD算法可以对任意形状的聚类进行识别,可以有效地识别出高维数据中的孤立点。

      (6)基于人工神经网络模型的孤立点

      Williams等提出的人工神经网络孤立点检测算法(Replitor Neural Networks,RNN),数据源往往使用通用统计数据集(一般较小)和专用数据挖掘数据集(较大,并且是现实的数据集),RNN算法对大的或小的数据集的孤立点检测结果都达到了预期效果,但它不适于检测含有放射状的孤立点数据集。

      孤立点分析技术在审计中的具体应用在两方面:一是审计数据预处理过程中,审计人员对审计数据清理和检测之后,通过规则集中预定义的孤立点识别规则,来识别此类数据是否为孤立点。二是异常检测(即让经验丰富的审计人员判别孤立点是否可疑)。

      审计人员在进行审计时,对可用的原始数据进行采集、清洗以及验证,使之达到建模的需求,然而最关键的一步是在明确了挖掘任务之后,据数据的类型和特征,寻找与之相适应的孤立点算法,则审计人员选取以上介绍的孤立点分析方法的一种或几种的组合,来满足客户对寻求异常数据的审计需求。

相关文章: