工商及电力数据的审计融合策略初探

作 者:

作者简介:
吕天阳,审计署计算机技术中心;苗润华,天津神舟通用数据技术有限公司

原文出处:
中国审计

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2017 年 08 期

关 键 词:

字号:

      审计大数据的综合利用面临一个重要障碍是如何融合不同领域的数据。其中,工商数据记录了众多市场主体的注册信息,电力数据则能非常客观地反映了经济社会主体的“活力”。这两类数据的相互融合既可以从微观上揭示“两高一剩”等特定类型企业的实际生产经营状态,也能从宏观上反映区域、行业的真实发展动态。笔者结合审计数据分析经验,对工商和电力数据的融合策略进行初步探索,以期对其他领域的审计大数据综合分析能有所助益。

      所用数据及其融合难点分析

      文中所用工商数据为企业工商登记信息表,包括每个企业的企业名称、营业执照号、注册地址、联系电话、法人代表名称、法人代表证件号等信息;所用电力数据为用电户基本信息表及用电信息量表,包括用户名称、用户证件号、用户联系方式、用电地址等信息。还使用了互联网数据辅助工商和电力信息的融合。所用数据及其相互间关系的概览如图1所示。

      

      理论上讲,只需要确定恰当的关联字段,就可以实现同一审计对象不同领域间信息的融合,但是领域数据的异构性和数据噪音却一直是审计数据融合的“拦路虎”。具体到工商和电力领域,简单地看,只需要将工商数据中的企业名称、营业执照号分别与电力数据中的用户名称、证件号码关联,即可实现信息融合。但是,电力领域对于证件号码的界定可以是营业执照号、税务登记证号甚至是个人的有效证件,对于用户名称的界定可以是用电企业名称,也可以是法人代表名称或联系人姓名,而工商数据中企业名称则特指用电企业名称,法人代表名称则另有记录。这种信息内涵的差异性直接干扰了关联字段的确定。此外,各领域中不同数据项的质量也参差不齐。例如,电力数据中大量用户名称、联系方式、地址信息并不规范,如用简称代替全称,多个用户共用同一地址等。

      出现上述障碍的原因在于:每个领域信息管理的侧重点并不一致,导致不同信息项的准确程度也不一样。例如,在工商数据中企业名称、营业执照号是开展工商管理的主要依据;电力公司则使用电表计费,上述信息的缺失并不影响电费的收取。因此,工商数据中企业名称、营业执照号的准确程度自然要远高于电力数据中的用户名称和用户证件号,但是电力数据中用电地址的准确程度则要高于工商数据中的注册地址。在这样的情况下,依据少量字段实现两个领域信息的关联,所能匹配上的记录数量就较为有限,匹配覆盖面较低。

      分级匹配策略

      为了解决上述问题,审计人员在融合工商与电力领域的信息时,采取依据信息项的可信程度进行分级匹配的策略,从而在尽可能准确的前提下扩大匹配的覆盖面。基本思路概述如下:

      置信度从高到低依次进行匹配,包括3个置信度等级和8个匹配规则。如果前一匹配规则生效即成功,否则即转入下一匹配规则。高置信度的3个匹配规则,得到的基本是相应企业工商信息与用电信息的正确融合;中等置信度的3个匹配规则,得到的可能是企业的工商信息与个人用电信息的融合,需要根据用电量信息进行进一步判断;低置信度的2个匹配规则,其可信度存疑,需要结合其他信息进一步判断,需要更多的人工决策。

      具体匹配过程如下页图2所示,介绍如下。

      

      规则①:工商数据中的营业执照号与电力数据中的用户证件号匹配。由于证件号的唯一性,所以这种关联得到的结果比较准确,且关联上的一定为企业用电户。

      规则②:工商数据中的企业名称和电力数据中的用户名称进行匹配。工商注册不允许企业重名,这种关联得到的结果也比较准确,关联上的一定为企业用电户。但是,由于电力数据所登记的用户名称并不特别准确,因此,这一规则会遗漏匹配大量的名称不规范的用户。

      规则③:工商数据中的注册地址与电力数据中的用电地址进行匹配。由于两个领域数据中均存在不同对象共用一个地址的情况,因此,分别对工商注册地址与用电地址进行去重处理后再匹配。为提高匹配准确度,也可以限定精确到门牌号的精确地址匹配。

      规则④:工商数据中的法人代表证件号与电力数据中的用户证件号进行匹配。由于工商数据中有很多个体工商户企业,他们在用电登记时可能并未用企业名称而是用个人的名字,因此采用这种匹配方法补充规则①的匹配结果。此时关联上的可能为企业法人的私人用电信息,需要根据用电量进一步筛查,因此,结果准确性要比前三种规则差。

      规则⑤:工商数据中法人代表名称与电力数据中用户名称进行匹配。这一规则的基本逻辑与规则④类似,是对规则②的补充。由于个人重名的可能性较大,因此,对两个领域的名称分别做了去重处理后再进行匹配。

      规则⑥:工商数据中的联系电话与电力数据中的用户联系方式进行匹配。由于电力数据与工商数据均存在不同对象共用一个电话的情况,需先分别对两个领域的电话号码去重处理后再匹配。

相关文章: