DOI:10.12154/j.qbzlgz.2026.01.008 1 引言 “十四五”时期是全民健康信息化建设创新引领卫生健康事业高质量发展的重要机遇期,也是以数字化、网络化、智能化转型推动卫生健康工作实现质量变革、效率变革、动力变革的关键窗口期[1]。在国家大力推进医疗信息化建设的过程中,电子病历系统在其中发挥着重要作用,其涵盖了患者的诊断、治疗过程、检查结果、医生建议、手术记录以及护理信息等信息,为智能医疗、智能医学诊断和医学咨询等应用提供了重要支持[2]。随着数智化时代的到来,医疗信息化也进入飞速发展的时代,电子病历的知识挖掘与发现显得尤为必要。电子病历知识发现能够从海量复杂的电子病历数据中提取有价值的信息,为临床决策、疾病预防、医疗质量提升等提供有力支持,是实现医疗数据向医疗知识转化的关键环节,也是推动医疗行业数字化转型的重要驱动力。目前电子病历知识发现的研究已取得显著进展,但仍存在一定的局限性。在研究成果方面,研究者已利用机器学习、深度学习等多种数据挖掘方法,以应用为导向,在疾病预测、疾病诊断以及疾病治疗等方面取得了重要突破。然而,现有研究仍面临诸多挑战,如数据质量与标准化问题、隐私与伦理问题等。针对这些问题,如何通过算法优化提升电子病历知识发现的准确性与可解释性,成为当前研究的关键挑战之一。 关联规则挖掘是数据挖掘领域中重要的研究方法之一,广泛应用于医学、金融、互联网等多个领域[3]。关联规则用于表述数据内隐含的关联性,反映了事物之间的相互依赖性和关联性[4]。相比于传统关联规则算法(如Apriori、FP-Growth)仅考虑项集的频繁性,加权关联规则算法通过引入权重因子优化规则挖掘,能更准确地反映真实世界数据的差异性,从而提高预测效果。加权关联规则在各领域都有应用,学者们也提出了不同的加权算法,用于优化关联规则,尽管加权关联规则在共病关系研究和药物相互作用分析中已有应用,但现有研究多聚焦于疾病或药物本身的加权,而忽视了患者个体差异对关联规则的影响。 本研究提出一种基于加权关联规则算法的电子病历知识发现方法,使用患者多维基础特征(年龄、性别等),以第一主成分方差贡献率作为权重系数的基础,对关联规则挖掘方法进行优化,发现数据中已知的和潜在的医学知识,为医学临床提供准确的预测和决策支持。以中国东北地区脑血管病患者为实证研究对象,通过支持度、置信度和提升度三个指标,对比传统Apriori算法与本研究加权方法的规则质量差异,从方法原理和实证结果两个维度探讨该加权关联规则方法在共病模式识别方面的应用,以此实现对电子病历数据的知识发现。 2 相关研究 面向电子病历数据的知识发现是医学数据研究的一个关键方向。利用数据挖掘技术辅助提取有价值的医疗信息,发现隐性医疗知识,能够辅助医生做出更精准的诊断,提升医疗服务的整体质量和效率。本研究主要从应用研究和方法研究两个方面对目前电子病历知识发现的研究现状进行总结。 2.1 电子病历知识发现的应用研究 在医学领域,电子病历的知识发现主要应用于疾病预测、疾病诊断以及疾病治疗三个方面。在疾病预测方面,发现疾病之间的影响因素知识,可以用于预测患者后续健康状况和患病机率,帮助医生提前采取措施,预防疾病的发生。例如,Escobar等[5]使用了具有拆分验证的回顾性队列研究设计,开发了适用于实时使用电子病历的预测模型,可用于预测产科并发症。在疾病诊断方面,电子病历的知识发现可以辅助医生进行诊断,分析患者患病情况,提高诊断准确性,有助于后续治疗效果。例如,Li等[6]利用现有的电子病历研究肺炎,建立肺炎自动诊断模型,所提出的贝叶斯网络具有良好的泛化性,可以直接应用于临床研究中心。在疾病治疗方面,电子病历的知识发现可以对医疗药物以及治疗方案进行调整和控制,达到最好的治疗效果。例如,Braunlin等[7]使用了美国2011—2019年肿瘤诊所电子健康记录数据分析了多发性骨髓瘤治疗前景和生存趋势,结果表明,诊断时间越近,生存率越高,多发性骨髓瘤的生存情况在过去十年中发生了显著变化。除此之外,还有从需求角度探究电子病历价值实现[8-9],以及从信息共享角度研究电子病历数据价值利用[10-11],这些研究为电子病历知识发现提供了一定借鉴。 2.2 电子病历知识发现的方法研究 当前对电子病历进行知识发现的方法主要依赖数据挖掘技术,包括统计学方法、机器学习方法、深度学习方法、聚类分析方法、复杂网络、关联规则等。在这些方法中,关联规则算法具备可解释性强、对数据分布要求相对较低、计算复杂度低等优势,用于电子病历数据中关系和模式的知识发现中,可以识别特定症状和疾病之间的关联,或者药物使用和副作用之间的关系。关联规则方法在医学领域的研究主要集中在共病关系研究、药物配伍和症药规律分析等方面。关联规则算法能够有效挖掘多重疾病关联,如Ho等[12]应用关联规则挖掘来识别合并症组合,发现与死亡率高度相关的合并症组合。基础的关联规则方法在实际应用过程中存在一定的缺陷,因而也有学者使用不同的加权方法来优化关联规则算法,以获取更加精准的实验效果。Shi等[13]首次使用马尔可夫链和加权关联规则挖掘来全面了解103种慢性病之间的关系,同时考虑了时间顺序;Ahmed等[14]提出了数据流加权频繁模式挖掘算法IWFPTFD和IWFPWA;Yun等[15]提出了数据流加权最大频繁模式挖掘算法MWS。在多重疾病关系研究中,常使用共病指数为关联规则算法进行加权,可靠的共病指数有查尔森共病指数(Charlson Comorbidity Index,CCI)、累积疾病评级量表(Cumulative Illness Rating Scale,CIRS)、共存疾病指数(Index of Coexistent Disease,ICED)和卡普兰指数(Kaplan Index)[16]。除以上典型的数据挖掘方法,学者们还利用其他方法来实现电子病历数据的知识发现与利用,如王若佳等[17]使用中文分词技术实现基于条件随机场的电子病历实体识别研究;熊回香和周明洁[18]基于扩展本体技术实现电子病历数据的知识组织;陆泉等[19]利用共现分析和实体识别技术开展电子病历疾病间语义关系挖掘研究等。通过这些方法处理与分析电子病历数据进行知识发现,能够让电子病历数据实现更高的价值利用。