网络爬虫技术获取审计证据的应用研究  

作者简介:
王秋菲,博士,中国注册会计师,沈阳建筑大学管理学院会计系主任、副教授、硕士生导师,研究方向为公司治理与财务控制;栾丹,沈阳建筑大学管理学院硕士研究生,研究方向为会计;张洛迪,沈阳建筑大学管理学院硕士研究生,研究方向为审计理论与实务。

原文出处:
会计之友

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2020 年 12 期

关 键 词:

字号:

      大数据概念的提出引发了审计技术的巨大变化,利用大数据技术提升审计工作效率成为国内外审计领域高度关注的热点问题。2015~2017年中共中央办公厅、国务院办公厅出台相关文件,包括《促进大数据发展行动纲要》《关于实行审计全覆盖的实施意见》《关于深化国有企业和国有资本审计监督的若干意见》等,表明加快信息化建设是完善我国审计体系的必经之路。与此同时,国内外实践界也从不同角度解释了大数据对审计的影响。美国注册会计师协会在2015年2月的Accounting Horizons发表了多篇有关大数据技术影响审计效率的文章;国际内部审计师协会在2017年发布的《理解与审计大数据》指南中,分析了大数据对审计的挑战;中国注册会计师协会在2017年工作报告中要求会计师事务所使用大数据及人工智能等数据挖掘技术降低审计风险,提高审计效率和工作质量。2017年,世界审计组织大数据工作组会议在南京举行,工作组18个成员国针对大数据时代的审计工作进行交流分享。习近平总书记在2018年主持召开的中央审计委员会第一次会议中强调“要坚持科技强审,加强审计信息化建设”。因此,以大数据技术为核心的审计信息化建设已成为中国全面实现审计覆盖的必经之路。

      在传统的审计模式下,搜索不到“重要审计证据”是导致审计失败的重要原因。在大数据背景下,海量信息有利于注册会计师更加全面地分析企业状况,探寻企业舞弊的线索,有效识别和降低审计风险。大数据在审计领域发挥作用的前提条件是被审计单位数据能和外部数据进行集成分析,但是由于我国尚未建立数据访问与数据共享的机制,有效的审计数据并不能低成本获得。2010~2019年中国证监会发布的关于审计失败行政处罚书数量总体呈攀升趋势,每年受到处罚的会计师事务所均不少于2家,2017年高达6家。审计失败不仅使会计师事务所受到冲击,签字注册会计师的名誉也会受到损害。如何在大数据环境下获取外部数据已成为大数据审计的重要问题。本文选取海南亚太实业发展股份有限公司(以下简称“亚太实业”公司代码000691)审计失败作为具体的案例,利用网络爬虫技术对其2009~2016年的大数据进行挖掘,提取新的审计证据进行分析,发现爬虫技术获得的证据可以有效地降低审计风险,避免审计失败。

      二、大数据审计的相关研究综述

      (一)大数据技术对审计的影响

      大数据改变了传统的审计数据采集与处理方法,因此,许多学者将研究的视角聚焦于大数据技术对审计判断与决策、审计技术与方法以及审计功能的影响。Connolly从数据功能的角度对审计大数据进行了界定,并提出交易数据、互动数据和观测数据的集合就是大数据。Davis et al.将大数据引入计算机网络审计模型中,发现其可以更好地帮助审计人员评估被审计企业的风险。Moffitt et al.认为,大数据改变了审计人员的判断和收集审计证据的方式。Lohr、Yoon etal,认为大数据技术是对传统审计取证方式的有力补充,利用大数据技术能够提高审计决策的质量和审计水平。Hoogduin etal.认为,大数据技术的引入能够解决以传统规则为基础的审计系统缺陷,减少审计人员对客户数据的依赖,并提供独立的基准评估审计证据。Lombardi指出,大数据时代审计人员可以通过使用数据技术挖掘外部数据降低客户风险、舞弊风险。Koskivaara认为,通过数据挖掘技术能够发现企业的舞弊,并使审计师成为最大的受益者。秦荣生认为,大数据技术推动了与风险审计模式相对的整体审计模式的形成和运用,为审计师获取相关关系证据提供技术基础,推动高效审计的成长。鲁清仿等研究了大数据对审计证据的影响,研究结果表明,大数据技术突破了传统证据收集的技术局限性,降低获取审计证据的成本,注册会计师通过分析更多的审计证据,能有效降低审计风险。程平等认为,大量结构化和非结构化数据存储在云平台中,使得审计人员能够更加便捷、快速地获取非标准化数据。王秋菲等将大数据因素引入审计风险识别模型,从审计主体、审计客体和大数据因素三方面来研究影响审计风险识别的关键因素。

      (二)网络爬虫技术在审计中的应用

      在审计的研究中,现有大数据技术大多集中在数据分析和处理上,而对相关数据的获取关注较少。目前,有四种主要的审计数据收集方法:直接复制、通过中间文件收集、通过ODBC接口以及备份/恢复进行收集。由于尚未建立信息共享平台,审计需要的财务数据和非财务经营数据无法获得,因此审计人员可以通过某些软件工具获取在线数据,也可以在Internet上实现对被审计单位公开报告的风险信息自动提取,以降低审计风险并提高审计效率。

      网络爬虫是一项技术,根据一定规则,用户可以从海量的大数据中自动获取想要的信息,并且该技术的使用可以扩充数据分析的范围,更全面地发掘相关的审计线索。张志恒等认为,网络爬虫的实质是文本挖掘,并设计出文本挖掘的审计框架。陈伟等将网络爬虫技术应用于审计中,利用主题爬虫方法将代码制作成脚本文件,为网络爬虫和审计的结合奠定了理论基础。肖敏将关键词替换为审计程序可以理解的脚本,发现挖掘出的审计证据比传统的取证模式更加丰富。

      国内外学者的相关研究表明,大数据技术可以有效降低审计风险。然而,如何利用大数据技术挖掘审计证据的研究却很少,尽管我国的学者提出可以使用网络爬虫收集和挖掘审计证据,但没有具体的案例分析整个应用过程。因此,利用具体的案例研究网络爬虫的应用具有重要的现实意义。

      三、网络爬虫技术原理及应用

      (一)网络爬虫技术挖掘数据原理

      网络爬虫的主要作用是在海量的互联网信息中抓取有效信息并存储。根据实施的技术和系统,网络爬虫可以分为通用网络爬虫、主题网络爬虫、增量式网络爬虫、深层网络爬虫,审计证据获取主要应用的是主题网络爬虫。主题网络爬虫可以根据对应的主题有目的地进行爬取,聚焦网络爬虫将目标定位在互联网中与主题相关的页面,初始URL的获取是通过对抓取目标的定义以及相关的描述。主题爬虫通常分为三步:

      第一步,确定需要爬取的网页,用户确定需要爬取的网址。

      第二步,爬虫软件爬取网页。通过软件输入代码或输入关键词,目前市场上有两种产品,一种是基于Python语言运行的Anaconda软件,下载后需要专业人士输入代码,运行后爬取目标网页上用户需要的数据;另一种是八爪鱼等爬虫软件,适合非专业人士应用,直接输入用户所需要查找的关键词便可以自动搜索相关网页。第一种产品的优点是用户可以设置筛选细节,包括去除广告等。缺点是较为复杂且需要专业的计算机知识基础。第二种产品的优点是对于非计算机专业人士方便简洁,缺点是搜索到的内容精准度有一定下降,但相对人工搜索效率与准确率仍大大提高。

相关文章: