基于集成学习的混合预测模型提升产前唐氏综合征筛查效能:与实验室中位数方程的对比研究

【字体: 时间:2025年07月30日 来源:Clinica Chimica Acta 3.2

编辑推荐:

  本研究针对产前唐氏综合征(DS)筛查中实验室中位数方程适应性不足的问题,开发了集成XGBoost、BRF和GBM算法的HyPred混合预测模型。通过对8363例训练集和1943例验证集样本的回顾性分析,证实该模型AUC达0.97,在敏感性和特异性等关键指标上均优于传统方法,为精准医学时代的产前筛查提供了更优解决方案。

  

唐氏综合征作为最常见的染色体异常疾病,每700名新生儿中就有1例患者,其导致的认知障碍和寿命缩短给家庭和社会带来沉重负担。虽然现行的孕早期筛查(FTS)通过检测妊娠相关血浆蛋白A(PAPP-A)和游离β-人绒毛膜促性腺激素(FT-free β-hCG)等血清标志物,结合孕妇年龄、胎儿颈项透明层厚度等参数进行风险评估,但传统的中位数倍数(MoM)转换方法存在明显局限——不同实验室因设备、方法和校准技术的差异,使得基于人群的通用方程难以准确反映个体生物学特征,就像用统一尺码的衣服给不同体型的人穿着,必然存在不合身的情况。

厦门长庚医院产前诊断实验室的胡丽萍团队在《Clinica Chimica Acta》发表的研究,正是为解决这一临床痛点。研究人员创新性地将极端梯度提升(XGBoost)、平衡随机森林(BRF)和梯度提升机(GBM)三种机器学习算法整合,构建了HyPred混合预测模型。通过对2019年11月至2023年7月间10,306例筛查样本的大数据分析(其中8,363例作为训练集,1,943例作为验证集),该研究不仅建立了实验室特异性中位数方程,更通过集成学习(EL)技术实现了筛查效能的显著提升。

关键技术方法包括:1)回顾性收集厦门长庚医院10,306例孕9-13周筛查样本,排除流产等病例后分为训练集和验证集;2)使用R语言开发集成XGBoost、BRF和GBM的HyPred模型;3)比较实验室中位数方程与默认方程的筛查效能差异;4)通过受试者工作特征曲线下面积(AUC)等指标评估模型性能。

【主要结果】
• 描述性统计数据:研究人群的孕周、母亲体重和预估分娩年龄分布通过直方图呈现,PAPP-A和FT-free β-hCG水平则采用箱线图展示,为模型建立提供数据基础。

• 训练集评估实验室中位数方程的筛查效率:与默认方程相比,实验室特异性中位数方程已显示出筛查效能的改善,这为后续机器学习模型的比较奠定了基础。

• 验证集性能比较:集成学习模型展现出显著优势,HyPred的AUC达到0.97,在准确性、鲁棒性和适应性等关键指标上全面超越传统中位数方程,证实机器学习方法能更精准地识别高风险妊娠。

• 模型特性分析:虽然XGBoost存在过拟合风险,BRF和GBM可能因采样策略影响泛化能力,但通过集成策略有效规避了单一算法的局限性,且现代计算工具已能较好解决其计算复杂度高的问题。

这项研究的重要意义在于:从临床化学诊断角度,HyPred模型通过优化PAPP-A和FT-free β-hCG这两个经典生物标志物的应用方式,实现了筛查准确性的质的飞跃。尽管机器学习模型存在"黑箱"特性难以解释的固有缺陷,但其在非线性特征提取和分类任务上的卓越表现,使其成为传统筛查方法的重要补充。该成果不仅为建立区域性筛查标准提供了新思路,更通过可推广的技术方案,推动产前筛查向精准医学方向迈进。正如研究者所言,这种结合实验室特异性方程与先进预测模型的方法,将助力开发更科学、更智能的筛查策略,最终提高DS的早期检出率。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号