ProtoMAP:基于原型网络的少样本学习模型在稽留流产预测中的创新应用与临床价值
《BMC Medical Informatics and Decision Making》:ProtoMAP: prototypical network based few-shot learning for missed abortion prediction
【字体:
大
中
小
】
时间:2025年09月27日
来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对稽留流产(Missed Abortion, MA)临床数据稀缺且不平衡的问题,创新性地提出ProtoMAP模型——一种基于原型网络(Prototypical Network)的少样本学习(Few-shot Learning)方法。通过整合多层感知机(MLP)和自注意力机制(Self-attention),该模型在仅需少量样本的情况下实现了优异的预测性能(AUC达0.95),显著优于传统机器学习模型(SVM、RF等)和深度学习模型(TabNet、TabPFN)。SHAP分析进一步验证了模型依赖妊娠次数、红细胞分布宽度(RDW)、血小板淋巴细胞比率(PLR)等临床关键指标进行决策,增强了模型的可解释性。研究成果发表于《BMC Medical Informatics and Decision Making》,为稀缺医疗数据条件下的精准预测提供了新范式。
稽留流产(Missed Abortion, MA)是自然流产的一种特殊类型,指胚胎或胎儿死亡后仍滞留宫腔内数天甚至数周,且宫颈口未开的病理状态。全球每年约发生2300万例流产,即每分钟44例妊娠丢失,而稽留流产约占临床确诊妊娠的15%,在中国已成为影响女性健康和人口质量的严重临床问题。患者可能无明显症状,但会导致凝血功能障碍、感染风险增加以及焦虑抑郁等心理问题,亟需早期精准预测以指导临床干预。
传统预测方法依赖年龄、流产史、孕囊与胎心差异等经验性指标,但存在劳动密集、准确性低的问题。随着医疗数字化发展,逻辑回归(Logistic Regression, LR)、随机森林(Random Forest, RF)等机器学习方法被广泛应用,但面临三大局限:一是难以捕捉多特征非线性关系;二是依赖大规模数据训练,而稽留流产数据稀缺且不平衡(正常流产样本约为稽留流产的6倍);三是缺乏领域适应性,无法有效整合医学先验知识。深度学习如卷积神经网络(CNN)虽在预测准确性上有所提升(准确率约80%),但仍受制于数据量和类别不平衡问题。
为此,博晓丽(Xiaoli Bo)团队在《BMC Medical Informatics and Decision Making》发表了题为“ProtoMAP: prototypical network based few-shot learning for missed abortion prediction”的研究,提出了一种基于少样本学习的原型网络模型ProtoMAP。该模型通过多层感知机(MLP)提取全局特征,结合自注意力机制建模特征交互,利用余弦相似度计算样本与类别原型距离,实现高效分类。仅需每类5个样本(5-shot),模型即可达到91%的准确率和0.95的AUC值,显著优于7种基线模型(包括SVM、KNN、RF、LR、TabPFN、SMENN和TabNet),证明了在稀缺数据条件下的强大泛化能力。
研究利用来自医院的2551例患者临床数据(含51维特征),经过缺失值填充(均值、众数、近邻填充)和显著性特征筛选后,构建2-way k-shot任务进行 episodic 训练。关键技术包括:1) 多层感知机(MLP)与自注意力机制结合进行特征增强;2) 原型网络计算类别中心(原型)并通过余弦相似度进行样本-原型匹配;3) 交叉熵损失函数优化模型参数;4) SHAP(SHapley Additive exPlanations)分析用于模型可解释性验证;5) K-means聚类进行队列分析,识别不同临床特征亚组。数据来源于国内医院临床记录,经伦理批准(批准号KY202405232140)且患者知情同意。
ProtoMAP在ACC、F1、AUC和AUPR四项指标上均达到最优(ACC=0.919, F1=0.925, AUC=0.950, AUPR=0.932),显著优于所有基线模型(p<0.05)。传统机器学习模型(如SVM、RF)因数据不平衡和边界模糊问题表现较差,深度学习模型TabNet和TabPFN因架构固定或缺乏归纳偏置而稳定性不足。ProtoMAP通过原型匹配和度量学习机制,有效克服了样本稀缺和类别不平衡的挑战。
移除余弦相似度模块导致性能大幅下降(ACC降低5.57%,AUC降低17.25%),移除自注意力模块也造成明显性能损失,证明两者均为核心组件。同时移除两者时,ACC下降11.44%,AUPR下降12.96%,验证了模型架构设计的必要性。
通过SHAP值评估特征重要性,发现妊娠次数(Pregnancies)、分娩次数(Births)、红细胞分布宽度(RDW)、血小板淋巴细胞比率(PLR)和纤维蛋白降解产物(FDP)为预测稽留流产的关键指标,表明模型决策依赖于妊娠历史、炎症状态和凝血功能等临床相关特征,增强了模型的可信度和可解释性。
基于SHAP特征进行K-means聚类(k=3),识别出三个临床亚组:Cohort_0(高妊娠次数、高PLR,代表高风险人群)、Cohort_1(低妊娠次数但高PLR,代表潜在风险人群)和Cohort_2(中等特征表达,低风险人群)。ProtoMAP在Cohort_0和Cohort_1上表现优异(ACC>0.92),但在特征表达较弱的Cohort_2中性能略有下降,说明模型对特征显著亚组泛化能力更强。
实验表明,当每类样本数(k-shot)为5或10时,模型性能达到峰值(F1=0.925,Recall=0.942),但k=20时性能反而下降(F1=0.902),原因可能是冗余样本引入噪声或单原型无法充分表示类别多样性。
研究结论表明,ProtoMAP是首个将少样本学习应用于稽留流产预测的模型,仅需少量标注样本即可达到与大规模数据训练模型相当的性能,解决了医疗数据稀缺和不平衡的核心痛点。通过整合可解释性分析(SHAP)和队列验证,模型不仅提供了高精度预测,还揭示了妊娠历史、炎症和凝血指标等临床关键因素,为早期诊断和干预提供了可靠工具。未来工作将探索多原型表示和多类别分类(如区分稽留流产与复发性流产),以进一步提升模型的临床适用性和准确性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号