解锁电子健康记录数据密码:联合模型在大数据中的应用指南

【字体: 时间:2025年05月14日 来源:BioData Mining 4

编辑推荐:

  在电子健康记录(EHR)数据应用日益广泛的当下,其数据质量问题影响模型性能。研究人员围绕联合模型开展研究,探索纵向 EHR 数据质量对其性能的影响。结果表明联合模型在特定数据条件下优于 Cox 模型,为数据质量评估提供了指导1215。

  近年来,电子健康记录(EHR)在医疗领域的应用越来越广泛,医生和医院对其使用不断增加。这些数据包含丰富的患者健康信息,如实验室结果、诊断测试、治疗方案、症状及结果等 ,理论上能为疾病风险预测等提供有力支持。然而,EHR 数据存在诸多质量问题,像数据不完整、不一致、不准确,在初级医疗数据中还存在数据缺失、有噪声、模式不规则以及相关数据点难以准确识别等情况。这使得在利用这些数据进行复杂模型分析时,模型性能受到严重影响。特别是对于联合模型(将纵向建模与生存建模相结合以整合所有可用信息的模型),目前并不清楚数据质量如何影响其性能,也不知道在何种数据质量水平下,联合模型相较于传统的 Cox 生存模型(一种常用的生存数据分析模型)能在精度和偏差方面展现优势。
为了解决这些问题,来自德国拜耳公司(Bayer AG)计算生物学部门、多特蒙德工业大学(TU Dortmund University)统计学系以及拉玛尔机器学习与人工智能研究所(Lamarr-Institute for Machine Learning and Artificial Intelligence)的研究人员 Berit Hunsdieck、Christian Bender、Katja Ickstadt 和 Johanna Mielke 开展了一项研究。他们的研究成果发表在《BioData Mining》上。

研究人员采用了多种关键技术方法来开展此项研究。首先是数据模拟,构建了一个模拟框架来生成逼真的初级医疗和医院数据。在模拟过程中,设定患者的观察期和随访期,生成生存结局、纵向 EHR 数据以及患者的固定基线特征。同时,通过多种分布函数来模拟数据的各个方面,如用均匀分布模拟诊断时间点,用正态分布模拟测量次数等。其次,运用了联合模型和 Cox 模型进行分析,将联合模型拆分为纵向模型和生存模型,并使用 R 包进行模型的实现和拟合 。最后,采用调整后的时变一致性指数(time-varying concordance index)来评估模型的预测性能,通过比较不同模型在该指标上的表现来判断模型的优劣。

下面来看看具体的研究结果:

  1. 推导基于模拟的纵向初级医疗数据指南:研究人员探讨了不同数据质量参数对联合模型性能的影响。
    • 样本量:模拟研究发现,小样本量(N = 50)时,Cox 模型和联合模型性能相近;样本量增加到 N = 200 时,差异开始显现,且联合模型性能有进一步提升,虽提升幅度较小,但仍推荐样本量 N ≥ 200 以实现稳健预测3
    • 测量次数:当每年至少有一次测量时,联合模型表现更优,但超过一定阈值后,增加测量点对提升性能作用不大,因此建议若使用联合模型,每年至少进行 1 次测量4
    • 噪声方差:随着噪声水平增加,联合模型在 C 指数上比 Cox 模型优势更明显。当噪声标准差约为 σe=0.075 时,联合模型开始优于 Cox 模型,所以推荐在 σe>0.075 的场景使用联合模型5
    • 斜率时长:当生物标志物斜率变化时间较短(疾病诊断前变化时间短)时,联合模型能检测到,而 Cox 模型不能;当斜率变化时间较长(如 5 年),二者性能差异较小6
    • 截距 / 基线差异:在无截距差异的场景中,Cox 模型和联合模型表现相似;截距增加时,联合模型受益更多,当截距差异 Δb ≥0.1 时,联合模型更为适用7

  2. 响应率和斜率方差随时间的变化:研究发现,只有当至少约 80% 的患者表现出生物标志物与诊断之间的预期关系时,联合模型或含生物标志物的 Cox 模型才优于基线 Cox 模型。同时,斜率变异性小时,Cox 模型优势明显;变异性增加时,二者性能更相近。而且,在靠近最后测量时间点预测时,联合模型优势不明显;在较晚时间点预测时,联合模型因能预测和拟合纵向轨迹,与 Cox 模型的差异更显著89
  3. 模拟为基础的纵向初级医疗数据指南:综合上述结果,研究人员制定了指南,当满足样本量 N ≥200、噪声标准差 σε>0.075、响应患者百分比 pperc ≥80 %、每年测量次数 nabs ≥1、截距差异 Δb ≥0.1、斜率标准差 σm ≤0.005 等条件时,联合模型性能优于 Cox 模型10
  4. 案例研究:推导指南的实际应用:研究人员用两个真实数据集验证指南。
    • 血清胆红素与原发性胆汁性肝硬化(Mayo Clinic 数据):该数据集满足指南所有要求,分析结果也证实,当预测间隔超过 1 年时,联合模型比 Cox 模型预测准确性更高1112
    • eGFR 与慢性肾脏病(UK Biobank 数据):此数据集部分要求未满足,联合模型相较于 Cox 模型未表现出性能优势1314


研究结论表明,联合模型在数据噪声高、纵向测量频繁的情况下,往往优于传统 Cox 回归模型。其有效性高度依赖患者进展的一致性,较大的样本量有助于提高所有模型的准确性。但联合模型并非在所有情况下都优于 Cox 模型,使用前需谨慎考虑。同时,研究制定的评估真实世界数据质量的指南,能准确预测联合模型的性能。

这项研究意义重大,为研究人员和临床医生选择合适的模型提供了有价值的指导。通过评估联合模型和传统方法,增强了临床研究中的统计方法,帮助分析人员根据数据集特征选择正确的技术,提高了医疗数据分析的可靠性,对改善健康结果具有积极的推动作用。不过,研究也存在一些局限,如未分析参数间的相互作用,部分复杂情况未建模,参数变化范围有限等,这些都为后续研究指明了方向 。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号