Advancing Preeclampsia Prediction: A Breakthrough in Imbalanced Medical Data Analysis

【字体: 时间:2025年03月25日 来源:BioData Mining 4

编辑推荐:

  为解决子痫前期(PE)预测中不平衡医疗数据集的难题,研究人员开展集成重采样和集成模型的研究,显著提升预测性能,意义重大。

  在妇产科领域,子痫前期(Preeclampsia,PE)是一个全球范围内的重大挑战。它就像隐藏在孕期中的 “定时炸弹”,准确的早期预测,尤其是在妊娠 16 周前,对于及时干预、保障母婴健康至关重要。然而,目前的预测方法主要依赖简单的临床检查表,在早期检测和准确性方面存在明显不足。随着医疗技术的发展,集成机器学习(Ensemble Machine Learning,EML)逐渐崭露头角,它有望通过整合多种学习算法提升预测性能。但在医学诊断中,数据不平衡问题却成了 “拦路虎”,以 PE 为例,全球只有约 2 - 8% 的孕妇会患病,这种不平衡使得模型容易偏向多数类,导致检测 PE 病例的效果大打折扣。
为了攻克这一难题,广西壮族自治区人民医院和华大基因研究院等机构的研究人员展开了深入研究。他们的研究成果发表在《BioData Mining》上,为子痫前期的预测带来了新的曙光。

研究人员为早期预测 PE 构建了一个全面优化的流程。首先是数据收集,他们收集了广西壮族自治区人民医院 2015 年 5 月至 2020 年 2 月期间孕妇的电子健康记录(EHRs),并使用三个公开数据集进行外部验证。在数据处理阶段,他们排除了缺失值超过 20% 的特征,对连续数据用中位数进行插补,分类数据用 “NA” 插补,同时进行数据归一化和编码处理,还利用最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)进行特征选择。

在重采样技术方面,研究人员采用了 8 种方法,包括随机过采样(Random Oversampling,ROS)、合成少数过采样技术(Synthetic Minority Oversampling Technique,SMOTE)等,系统地调整训练集中的少数与多数比例(Minority-to-Majority Ratio,MMR),范围从 0.05 到 1,步长为 0.01。在模型构建上,集成了 6 种 EML 算法,如自适应提升(Adaptive Boosting,AdaBoost)、随机森林(Random Forest,RF)等。通过对 4608 种模型配置进行评估,使用 G-mean(敏感性和特异性的几何平均值)、马修斯相关系数(Matthews Correlation Coefficient,MCC)、平均精度(Average Precision,AP)和受试者工作特征曲线下面积(Area Under the Curve,AUC)等指标,研究人员进行了一系列关键变量分析和优化。

研究结果令人欣喜。数据准备和特征选择后,确定了 36 个对 PE 有强预测能力的特征。在模型性能综合分析中,发现重采样技术对 G-mean 影响显著,其中 IWGMM 表现最佳。在 IWGMM 重采样下,EML 算法中 GBDT 效果最优。MMR 在与 IWGMM 和 GBDT 结合时,0.09 时性能最佳,G-mean 达到 0.6694(95% 置信区间:0.5855 - 0.7557),相比基线提升了 8.74%,MCC、AP 和 AUC 也有显著提升。热图分析进一步展示了不同模型配置下的性能差异,IWGMM 在各指标上表现突出。此外,该方法在三个公开数据集上的验证,证明了其稳健性和通用性。

研究结论表明,这个优化的流程有效提升了 PE 预测模型在不平衡数据集中的性能。变量优化顺序很关键,优先重采样、再选 EML 算法、最后优化 MMR 能取得最佳效果。G-mean 在区分不同模型配置上很有效,不同评估指标会影响变量优先级。同时,研究也指出了局限性,如数据集单一、未探索更复杂的 EML 方法、指标选择可能无法满足所有临床需求等。但总体而言,该研究为医学诊断中不平衡数据的处理提供了新的思路和方法,有望在临床实践中得到广泛应用,助力提高子痫前期的早期检测水平,降低严重并发症的发生风险,保障母婴健康。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号