语音识别技术在智能审计中的运用初探

作者简介:
何若云,杨熤天,杨琦,阮国蓓,张玲,上海银行

原文出处:
中国内部审计

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2020 年 04 期

关 键 词:

字号:

      (一)人工智能发展背景

      诞生于20世纪中叶的人工智能(Artificial Intelligence,AI)技术是近几年最热门的科技词汇,在类别上可分为强人工智能与弱人工智能。目前几乎所有能接触到的人工智能应用,如图像识别、语音识别、棋类博弈、自然语言理解、自动驾驶等都属于弱人工智能范畴,强人工智能至今仍未突破瓶颈。

      人工智能的发展经历了两次高潮及两次低谷,当前随着云计算的出现、计算机算力的飞跃、大数据的诞生以及神经网络算法进一步深度发展,人工智能步入了第三次繁荣期,“AI+”概念出现在各行各业中,审计领域的“智能审计”技术也应运而生。

      (二)大数据时代的非结构化数据

      1.结构化数据。简单来说即存储于关系型数据库的数据,也称为行数据,数据以行为单位,每一行数据表示一个实体的信息,各个字段在每一行数据中的属性是相同的,通过关系型数据库二维表结构来进行存储和管理。与此对应的是不适合用关系型数据库二维表来展现的半结构化数据及非结构化数据。

      2.半结构化数据。即介于完全结构化数据与非结构化数据之间的一种数据形式,一方面包含了我们需要了解的数据细节,不能简单地将数据组织成任意的文件按照非结构化数据处理;另一方面由于结构变化区别很大,又不能够简单地建立关系型数据库表与之对应。半结构化数据通常使用半结构化的XML文档、JSON格式、文本文件等来描述。

      3.非结构化数据。即数据本身没有数据结构模型进行预先定义,通常包括各种格式的办公文档、报表、图像、视频及音频等。因非结构化数据异构性程度高,目前还没有简便的非结构化数据处理工具方法。

      (三)智能审计概念

      在智能审计(Smart Audit,SA)技术出现之前,已被广泛使用的审计技术有两种:计算机辅助审计技术(Computer-Assisted Audit Techniques,CAATs)与非现场审计(Off-Site Audit),两种审计技术与审计信息化概念联系最为紧密,二者既有联系又有区别。

      1.计算机辅助审计技术。即审计人员在审计及相关管理过程中,使用计算机或者计算机软件作为工具,以半自动化或自动化方式执行一定的审计程序及审计工作的一种审计技术。

      2.非现场审计技术。即审计人员通过连续收集、整理审计对象业务经营管理过程中的数据和资料,运用适当的方法或流程进行分析的一种远程审计程序。

      计算机辅助审计技术是审计方法的集合,而非现场审计技术则是一种审计程序或者说是一种审计实施方式。计算机辅助审计技术并不是非现场审计所特有的,在现场审计活动中也可使用该种审计方法;但非现场审计主要依赖计算机辅助审计技术。

      3.智能审计技术。近年来,随着大数据技术的出现及人工智能技术的飞跃式发展,多种智能技术的出现打破了传统审计在数据规模、范围以及类型方面的限制,出现了智能审计的概念。智能审计相比于计算机辅助审计技术,审计覆盖的数据范围更大,数据分析能力更全面,能够对各类结构化和非结构化数据处理分析,且智能审计具有更强的自动化处理能力,最重要的是涵盖机器学习技术的智能审计具备智慧的风险洞察能力。智能审计技术与早期的计算机辅助审计技术联系密切,其本质是计算机辅助审计技术的进化,但青出于蓝而胜于蓝,智能审计是人工智能与大数据时代的计算机辅助审计,是审计数字化进程中具备智慧的一种计算机辅助审计技术。

      (四)语音识别技术

      语音识别技术是人工智能技术的重要组成部分之一,其目标是将自然语言的语音内容转换为计算机可读的字符序列,进一步研究这些字符序列的含义,即让机器听懂自然语音。

      二、语音识别技术原理模型

      (一)语音识别原理简介

      语音识别即把语音变成文字可以看成是广义上的标注问题。如给定一段语音信号作为输入X,语音识别就是需要找出一个单词序列W,使得W与X的匹配程度最高,这个匹配程度用概率W*表示。语音识别就是求解条件概率最大值:

      

      通常一段自然语言的语音产生是由人先想好想说的词句即W,然后再把它说出来即X,故上述条件概率是反的。可利用贝叶斯公式,将上述条件概率反过来变成:

      

      其中P(W)表示单词序列W本身的概率,也就是W这样串成的单词本身有多大可能性成为一句合理的句子。P(X|W)表示给定单词序列W以后出现语音信号X的概率,即W这串单词有多大可能性发成X这串音。语音识别即要找W使得这两个概率乘积达到最大值,这是语音识别的核心内容,而P(W)被称为语言模型,P(X|W)被称为声学模型。

      (二)语言模型

      语言模型P(W)一般利用马尔科夫链式法则,把一个单词序列的概率拆解成其中每个词的概率之积,即设W是由组成的,则可以拆成:

      

相关文章: