基于单分类集成学习的极早产预测新方法:针对阿联酋孕妇人群的电子健康记录分析
《Scientific Reports》:Early prediction of very and extreme preterm births using a one-class classification framework on electronic health records in UAE
【字体:
大
中
小
】
时间:2025年12月21日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对极早产(vPTB)和超早产(xPTB)预测中存在的类别不平衡问题,创新性地采用单分类(OCC)框架,仅使用正常样本进行训练,在阿联酋孕妇电子健康记录上实现了早期预测。研究通过11种OCC算法和多种集成策略,在经产妇和初产妇人群中分别获得最高0.823的AUC-ROC值,为早产预测提供了新的技术路径。
在全球范围内,早产始终是困扰母婴健康的严峻挑战,每年约有1500万早产儿出生,其中100万不幸夭折。特别是发生在妊娠32周前的极早产(vPTB)和28周前的超早产(xPTB),不仅导致婴儿死亡率显著上升,更给家庭和社会带来沉重负担。传统机器学习方法虽已应用于早产预测,但医疗数据中普遍存在的类别不平衡问题——正常分娩样本远多于早产样本,严重制约了预测模型的准确性。
目前的研究多依赖于超声、电子子宫造影等复杂检查手段,这些方法要么具有侵入性,要么在偏远地区难以普及。而电子健康记录(EHR)作为非侵入性数据源,能全面反映孕妇健康状况,为早期预测提供了新思路。然而,vPTB和xPTB的罕见性使得传统数据平衡技术效果有限,迫切需要新的方法论突破。
这项发表在《Scientific Reports》的研究开创性地将单分类分类(OCC)框架引入早产预测领域。研究团队收集了阿联酋孕妇人群的电子健康记录,重点关注妊娠早期易于获取的临床特征。与需要正负样本的传统方法不同,OCC仅使用正常样本进行训练,将早产案例视为异常值进行检测。这种思路巧妙规避了数据不平衡的困境。
技术方法上,研究采用11种OCC算法(包括高斯混合模型GMM、隔离森林IF、自编码器AE等),结合堆叠集成和局部选择性并行异常值集成(LSCP)等策略。针对经产妇和初产妇的不同特征,构建了三个特征子集进行比较。所有实验均采用重复交叉验证,以AUC-ROC和AUC-PRC作为主要评价指标。
在初产妇人群中,单个OCC算法表现最佳的是高斯混合模型(GMM),AUC-ROC达到0.527。而集成策略中,基于最小值的归一化集成(min(1))效果最优,AUC-ROC提升至0.540。值得注意的是,堆叠集成中的K近邻(KNN)算法获得了0.541的AUC-ROC值,显示出集成方法的潜力。
对于经产妇群体,研究设计了三种特征组合策略。当使用与初产妇相同的特征集时,变分自编码器(VAE)表现最佳(AUC-ROC=0.620);使用全部特征时,核主成分分析(KPCA)达到0.630;而仅使用经产妇特有特征时,隔离森林(IF)以0.663的AUC-ROC值领先。这表明不同人群需要采用不同的算法和特征组合。
在超早产预测方面,单类支持向量机(OCSVM)在初产妇中表现最好(AUC-ROC=0.673)。经产妇的预测结果呈现出类似规律,但最佳算法变为K近邻(KNN)(AUC-ROC=0.614)。特别值得关注的是,在仅使用经产妇特有特征时,隔离森林(IF)的堆叠集成实现了0.823的优异AUC-ROC值,这是本研究中的最高性能表现。
研究详细比较了多种集成策略的效果。均值聚合、中位数聚合、最大值聚合和最小值聚合等策略各具特色。结果显示,没有一种集成策略在所有数据集上都表现最优,这强调了根据具体场景选择合适方法的重要性。局部选择性并行异常值集成(LSCP)方法通过考虑数据的局部特性,在某些情况下展现出了更好的适应性。
研究的创新之处在于首次系统地将OCC框架应用于早产预测,并进行了大规模的算法比较。与传统方法相比,OCC不需要处理类别不平衡问题,仅依靠正常样本就能建立有效的预测模型。这种方法特别适合像早产预测这样正样本稀少的医疗场景。
然而,研究也存在一定局限性。数据来源于阿联酋单一人群,可能影响模型的普适性。此外,研究仅使用了妊娠早期数据,而孕期风险因素会随时间变化。未来研究可结合多时间点数据,并探索人工异常值生成等策略进行超参数优化。
这项研究为早产预测提供了新的方法论视角,证明了单分类学习在医疗不平衡数据领域的应用价值。随着电子健康记录的普及和算法的不断优化,这种基于正常样本的预测框架有望在更多医疗场景中发挥作用,最终为实现早产的早期干预和精准防控提供技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号