医疗保险基金审计的回归分析法

作 者:

作者简介:
陈云飞,安徽省审计厅;石晓娟,安徽省池州市审计局

原文出处:
中国审计

内容提要:

02


期刊代号:V3
分类名称:审计文摘
复印期号:2019 年 04 期

关 键 词:

字号:

      医疗保险基金是关乎人民群众生命健康的重要资金。开展医疗保险基金审计(简称“医保审计”),对进一步完善医疗保险基金管理制度,提高医疗机构服务能力具有积极作用。虽然近几年医保审计已经取得一定成效,但随着医疗保险基金规模的不断扩大,医保审计所面临的人员短缺和任务繁重的矛盾日益突出。此外,医疗保险基金管理部门和各定点医疗服务机构信息化建设的迅猛发展,使得审计人员经常处于海量数据和复杂信息系统环境的困境之中,运用大数据技术进行审计成为必要的手段。

      数据挖掘是大数据领域最核心、最常用的数据分析技术,它通过算法模型对海量数据进行高度自动化分析,从中挖掘隐含和未知的知识。将数据挖掘技术引入医保审计,能够帮助审计人员发现隐藏的疑点和趋势,快速定位问题线索,节省人力成本,提高审计工作效率。近期,安徽省审计机关对C市医疗保险基金的管理使用情况进行了审计调查,使用数据挖掘中的回归分析法分析C市社保信息管理系统数据和医院信息系统(英文简称“HIS系统”)数据,发现存在多报销医药费和医疗服务费超标准等问题。

      (一)数据采集与整理

      在现场审计实施之前,审计组开展了必要的审前调查,了解到医疗保险基金管理使用的是全省统一的社保信息管理系统,数据库为Oracle,采用的是B/S架构,与各医院的HIS系统使用接口进行数据传送,数据集中存放,可从其服务器上直接获取。根据审计数据分析的需要,审计组对社保信息管理系统数据和医院HIS系统数据进行了重新规划,划分为基础资料数据、测评数据和医疗保险数据三大类。基础资料数据包括社保单位资料、行业管理制度资料和社保业务基础资料,测评数据包括内部控制测评数据、信息系统测评数据,医疗保险数据包括医疗保险征缴管理和医疗保险支付等数据。

      (二)数据预处理

      医疗保险基金数据量大、来源广、种类多,容易造成数据不完整、重复记录、二义性、编码不一致、类型不匹配等问题,因此在数据挖掘之前,需要先进行数据预处理工作,主要包括转换、归约、清理和集成。具体方法如下:

      一是根据数据挖掘任务,确定构建模型所需要的数据属性,删除无用属性和冗余信息,如身份证号码、年龄、单位名称、隶属关系等。

      二是将住院信息中的入院日期和出院日期转换成住院天数,在后面介绍的算法模型中,使用住院天数属性。结合代码表对单位类型、所属行业、经济类型、个人身份和户口性质等属性进行转换,方便构建和解释模型。

      三是对数据类型进行转换。原始数据导入时会因为数据类型转换导致一些信息丢失,因此,需要对数据类型重新定义和完善,如将金额转换为货币类型,将年龄等信息转换为浮点类型。

      四是对转换后的数据进行清洗,去掉错误和缺失数据。原始数据库内含1789张数据表,生成标准数据集后,整理得到“医疗保险政策表”“药品目录表”“诊疗项目目录表”“医保报销台账”“医疗保险个人参保信息表”“参保人员诊疗费用明细表”“医保报销支付明细表”“定点医疗服务机构信息表”等中间表,会同从民政部门获取的“民政局低保户花名册”和“民政局五保户花名册”等表一并导入Oracle数据库,以便后期查询分析和数据挖掘使用。

      随着数据挖掘技术的兴起,商业市场上也出现了一些较为成熟的数据挖掘工具软件,如IBM SPSSStatistics、Microsoft SQL ServerBI、SAS Enterprise Miner及国产神通K~Miner等。由于本文数据采集还原使用的是Oracle数据库,笔者选用与其兼容性较好的IBM SPSSStatistics软件进行数据分析,IBMSPSS Statistics版本号22。

      (一)数据导入

      在数据挖掘前,先要通过ODBC将数据导入IBM SPSS Statistics。首先,通过ODBC数据源管理器建立Oracle ODBC连接;其次,打开IBM SPSS Statistics后选择“文件”-“选择数据库”-“新建数据”,新建SPSS Statistics数据库;然后,在ODBC数据源中选择需要导入IBM SPSS Statistics的表及字段,本例中需要导入“医保报销台账”“医保报销支付明细表”等数据表及“住院号”“住院天数”“医疗费总额”“个人应支付金额”“统筹医疗费用金额”等字段;最后,进入IBM SPSS Statistics,对需要分析的数据进行参数调整,包括名称、类型、宽度、小数、标签、值、缺失、列及角色等。

      (二)回归分析

      本次数据挖掘重点审查的是异常报销情况,故需要查看总费用与统筹支付金额之间的关系,因此选用回归分析法进行挖掘。

      回归分析法是研究一个随机变量Y对另一个或一组变量依赖关系的统计分析方法,常用来进行预测和异常检测。回归分析主要包括简单线性回归、多项式回归、多元线性回归、多变量回归、logistic回归、神经网络回归和支持向量机回归等分析方法。本文用线性回归技术对“医保报销支付明细表”中的报销数据进行挖掘分析,重点审查医保报销比例及金额的合理性。

      在IBM SPSS Statistics中选择线性回归算法。打开主界面的“分析”菜单,在下拉菜单中选择“回归”,并在弹出菜单中选择线性回归算法,对线性回归算法相关的因变量、自变量进行设置,本例中因变量设置为“医疗费总额”,自变量设置为“统筹支付金额”。同时,根据个人对数据挖掘结果的统计、显示和保存等要求,对统计项、绘图、保存、选项等软件界面进行设置。

相关文章: