大数据(Big Data)就表层含义而言,可定义为以传统数据处理工具和软件无法进行有效处理的各种来源的巨型非结构化数据集。大数据的出现促进了主题广泛的新研究,各种大数据统计方法不断涌现和发展。2014年,国务院发布《关于加强审计工作的意见》,提出将大数据技术应用于国家审计,提高信息化技术应用程度。2015年,国务院在《促进大数据发展行动纲要》中提出国家大数据战略,进一步强调大数据的重要性。2018年2月28日,中国共产党第十九届中央委员会第三次全体会议通过的《中共中央关于深化党和国家机构改革的决定》,强调综合运用大数据,增强宏观调控前瞻性,强化经济监测预测预警能力,更好发挥国家战略、规划的导向作用。2020年新冠肺炎疫情期间,各方工作皆受到影响,但审计单位灵活运用大数据技术开展审计工作,使其得以正常运转。审计署重庆特派办、审计署哈尔滨特派办、广东省审计厅电子数据审计处均采用大数据技术开展疫情下的审计工作,并取得了显著的成果。 面对日益庞大的数据量以及复杂的数据环境,需要利用更加高效的审计手段对被审计对象进行审计,同时,审计全覆盖也对全体审计人员专业水平提出了更高的要求,需要审计人员及时掌握相关技术。正如胡泽君(2018)所说,当前审计正面临从传统审计向现代审计的转变,审计开展现代化大数据智慧审计是时代要求,大数据是实现审计全覆盖的必经之路。因此,为了进一步明确大数据审计领域的研究现状、研究热点以及未来可能的发展方向,本文使用Citespace,将来自CNKI的2768篇文章以知识图谱的形式进行可视化分析,展示大数据审计领域的研究情况,为研究者了解大数据审计提供借鉴和参考。 二、研究方法及样本选择 (一)研究方法 本文采用Citespace5.6.R5(Expires December 31,2020)和Citespace5.7.R2(Expires Sept 30,2021)进行文献分析,综合新旧两个版本,可以确保可视化成果的完整性以及研究成果展示的时效性。Citespace是美国德雷塞尔大学(Drexel University,Philadelphia,PA,USA)信息科学与技术学院英籍华人陈超美教授于2014年开发的软件。Citespace在国内又被翻译为引文空间,是基于数据可视化以及计量学背景下发展起来的一项专门分析科学研究中潜在知识的引文可视化分析软件。该软件通过可视化的手段来分析呈现出的科学知识结构、规律和分布情况,因此,分析结果被称为“科学知识图谱”。 科学知识图谱是显示科学知识、新兴学科发展过程和发展现状、科学知识内外部结构的一种图形。科学知识图谱的直接研究对象是科学知识,以科学计量学为理论基础,同时涉及科学学、应用数学、信息科学和信息计量学的交叉领域。相比传统的文献综述,科学知识图谱分析利用可视化分析,将科学知识更为直观、系统地展现在研究人员面前,使得理解更容易,并且对未来发展方向能够更好地把握。该方法已广泛应用于医学、工程学、心理学、管理学、教育学、经济学等许多学科,并取得了丰富的研究成果,但在审计学中鲜有使用。 (二)样本选择 本文中文样本取自CNKI数据库。为保证所选取的样本量具有价值性,选择期刊库中的SCI、EI、核心、CSSCI、CSCD数据库,初步筛选时主题词为“大数据”或含“数据挖掘”,选择“同义扩展”确保主题筛选后的样本无遗漏,时间区间为“2012~2020年”(2020年文献仅包括12月前收录文献)①,初步检索出文献147594篇。更改主题词为“审计”,保持其他条件不变,在初次检索结果中进行二次检索,得到“大数据审计相关文献”2799篇,剔除英文文献后为2799篇。将得到的数据进行手工筛选,剔除“会议”“广告”“征文”等无关文献,得到2768篇相关文献。经过Citespace除重以及缺失处理后,最终得到中文文献2768篇。对最终文献进行年度分布分析,如图1所示,发现自2012年以来,年发文数量逐年提高,占发文总量(2799篇)的99.78%,2012~2016年、2018~2019年每年发文数量基本为上年的两倍,由此可见大数据审计研究的热度逐年提升,学者对其关注度明显增加。
三、大数据审计整体研究情况的知识图谱分析 使用Citespace得到的知识图谱由网络节点以及网络连接线组成。圆点代表网络节点,圆圈越大表示出现频率越高。圆圈中圆环的不同颜色代表了网络节点出现的年份,圆环圈数越多代表节点出现持续的年份越多。圆环的深浅程度代表出现年份,颜色越深代表出现年份越近。同时节点的大小也代表了节点出现频率的高低,节点字体越大,节点出现频率越高。圆点之间的连线代表节点之间的关系,连接线越密集代表两节点在同一篇文献中共同出现的频次越高。连线的颜色含义与圆环颜色相同,表示年份远近。