
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于数据平衡预处理与神经网络建模的产后出血预测新框架
【字体: 大 中 小 】 时间:2025年05月27日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
本研究针对产后出血(PPH)预测中数据类别不平衡和传统机器学习模型特征提取不足的难题,四川大学华西第二医院团队创新性地提出融合部分合成过采样(PSOS)的神经网络预测框架。通过系统数据预处理、新型PSOS平衡策略和集成投票模型,显著提升PPH预测准确率至89.7%,为临床早期干预提供可靠AI决策支持。
在全球母婴健康领域,产后出血(Postpartum Hemorrhage, PPH)始终是威胁孕产妇生命的头号杀手。世界卫生组织2023年统计显示,每年约28.7万孕产妇因PPH等可预防原因死亡,其中发展中国家占比高达20%。现有预测模型面临三重困境:医疗数据存在严重缺失和文本非结构化问题;PPH阳性样本仅占5%-10%的极端类别不平衡;传统机器学习方法依赖人工特征工程且难以捕捉复杂特征关联。这些瓶颈导致临床预测灵敏度不足,直接影响黄金抢救时机的把握。
四川大学华西第二医院联合四川省妇幼保健院的研究团队在《Biomedical Signal Processing and Control》发表创新研究,提出"数据平衡预处理-神经网络建模"的智能预测框架。该研究基于2021-2023年分娩登记表(BRF)的临床大数据,首先通过自然语言处理技术从文本字段提取关键特征,采用多重插补处理缺失值;继而设计部分合成过采样(Part-Synthetic Oversampling, PSOS)新算法,将临床特征分为统计型指标和文本衍生指标分别进行SMOTE合成与随机复制;最终构建以PSOS-神经网络为主模型,结合随机过采样(ROS)和欠采样(RUS)辅助模型的集成投票系统。
关键技术路线包含:1) 基于BRF表格的多模态特征工程,处理连续变量与文本特征的融合编码;2) PSOS平衡策略,对数值特征采用SMOTE合成而文本特征采用复制扩充;3) 深度神经网络架构设计,包含3个隐藏层和Dropout正则化;4) 集成投票机制,综合PSOS-NN、ROS-NN和RUS-NN三模型预测结果。
【数据预处理提升数据可用性】
研究团队从原始BRF数据中提取出4大类32个特征,包括孕产史、分娩方式等结构化数据,以及"胎盘描述"等文本字段。通过词嵌入技术将文本特征转化为150维向量,结合卡方检验筛选出16个关键特征。预处理后数据集完整度从78%提升至99%,为模型训练奠定基础。
【PSOS策略有效平衡数据】
针对PPH阳性样本仅占7.2%的极端不平衡,提出的PSOS算法将特征分为统计型(如出血量、宫缩剂使用量)和文本衍生型(如并发症描述)。对前者采用SMOTE合成新样本,后者则通过语义保持的随机复制进行扩充,最终使正负样本比达到1:1.3。实验显示PSOS相较传统方法使少数类F1值提升21.3%。
【神经网络模型性能优越】
在包含8,763例分娩记录的测试集上,PSOS-NN模型取得89.7%的准确率和0.91的AUC值,显著优于随机森林(82.1%)和逻辑回归(76.5%)。特别在识别PPH阳性病例时,灵敏度达85.4%,比传统方法平均提高32%。模型对剖宫产大出血(≥1000ml)的预测精度尤为突出,达到93.2%。
【集成投票增强鲁棒性】
通过soft voting机制整合三个平衡策略下的NN模型,最终框架在保持高灵敏度(83.6%)的同时,将特异度提升至91.2%。消融实验证实,移除任一子模型都会导致性能下降2.3%-4.1%,验证了集成设计的必要性。
这项研究通过技术创新实现了三大突破:首先,PSOS策略为医疗数据不平衡问题提供新思路,其分特征类型处理方式可扩展至其他罕见病预测;其次,端到端的神经网络架构避免了传统方法中主观特征选择的偏差;最后,集成框架在保持模型可解释性的同时提升了临床适用性。团队已将算法部署至四川省妇幼保健院电子病历系统,实际应用中使PPH漏诊率降低38%。该成果不仅为产科AI辅助决策树立新标杆,其方法论对处理不平衡医疗数据具有普适指导意义。未来研究可探索跨机构数据验证和在线学习机制,以进一步提升模型泛化能力。
生物通微信公众号
知名企业招聘