
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于分布外数据拒绝策略的早期疾病预测模型在数据集偏移问题中的创新应用
【字体: 大 中 小 】 时间:2025年06月03日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对机器学习在健康医疗数据中因数据集偏移(Dataset Shift)导致的预测准确性下降问题,创新性提出分布外数据拒绝预测方法(ODROP)。通过整合变分自编码器(VAE)等5种OOD检测模型,在糖尿病、高血压等疾病预测任务中实现AUROC最高提升0.1。该研究首次将OOD检测应用于真实世界健康检查数据,为跨区域医疗预测模型提供可靠解决方案。
在医疗健康领域,机器学习模型正日益广泛地应用于疾病风险预测。然而一个长期存在的挑战是"数据集偏移"(Dataset Shift)现象——当训练数据和实际应用场景数据的概率分布存在差异时,模型的预测性能会显著下降。这个问题在跨区域医疗预测中尤为突出,由于各地饮食习惯、生活方式以及检测设备的差异,导致健康检查数据的分布特征各不相同。传统方法往往忽视这一关键问题,使得模型在新场景中的应用效果大打折扣。
日本京都大学医学研究科的研究团队在《Scientific Reports》发表了一项开创性研究,提出名为"分布外数据拒绝预测方法"(Out-of-distribution reject option for prediction, ODROP)的创新解决方案。该方法通过整合分布外(OOD)检测模型,有效识别并排除不适用于预测的数据,显著提升了糖尿病、高血压等生活方式疾病预测的准确性。
研究采用了来自日本弘前市和和歌山县的两组具有明显分布差异的健康检查数据集,包含334项检测指标。关键技术方法包括:1) 使用变分自编码器(VAE)等5种OOD检测算法计算分布差异分数;2) 构建XGBoost疾病预测模型;3) 采用AUROC-拒绝率曲线评估性能改进;4) 应用SHAP值聚类分析识别关键分布偏移特征。所有模型均在弘前市数据上训练,在和歌山县数据上测试。
【数据集偏移验证】
通过Welch's t检验和核密度估计证实两组数据在年龄、血糖等多项指标上存在显著差异(p<1.5e-18)。预测性能验证显示,直接应用时AUROC在和歌山数据上明显下降:糖尿病(0.11)、血脂异常(0.09)。
【ODROP方法评估】
内部验证显示VAE重建方法在三种疾病预测中均能稳定提升AUROC(糖尿病+0.015)。外部验证中,VAE方法使糖尿病预测AUROC从0.80提升至0.90(拒绝率31.1%),血脂异常从0.70提升至0.76(拒绝率34%)。能量方法(Energy)在PRAUC指标上也有显著改进。
【关键分布偏移发现】
通过SHAP聚类首次将分布偏移分为两类:对预测有显著影响的(如糖尿病预测中的HbA1c糖化血红蛋白)和不显著影响的。发现和歌山数据中HbA1c较低群体是主要OOD数据。
【讨论与意义】
该研究首次将计算机视觉领域的OOD检测技术成功应用于真实世界医疗数据,具有多重创新价值:1) 提出的ODROP方法无需修改现有预测模型即可提升跨区域应用性能;2) VAE重建方法被证实最适合医疗表格数据;3) 发现的分布偏移分类为医疗设备标准化提供依据。局限性在于无法对所有测试数据做出预测,但在临床决策支持系统中,可靠但覆盖范围有限的预测比全覆盖但不可靠的预测更具实用价值。
这项研究为解决医疗AI领域的关键挑战——数据集偏移问题提供了切实可行的技术路径,其方法论框架可扩展至其他临床预测场景,对推动机器学习在真实医疗环境中的可靠应用具有重要意义。未来工作可探索与领域自适应技术的结合,以进一步扩大预测覆盖范围。
生物通微信公众号
知名企业招聘