基于特征工程与多算法融合的胎心监护信号机器学习分析:提升胎儿异常早期诊断的新框架
《Machine Learning with Applications》:Machine learning techniques for analysing cardiotocography signals for early detection of fetal anomalies based on feature engineering methods
【字体:
大
中
小
】
时间:2025年10月21日
来源:Machine Learning with Applications 4.9
编辑推荐:
本研究针对胎儿健康评估中卡多胎图(CTG)信号解读存在主观差异和误诊风险的问题,开发了一种集成特征选择(VIF、SHAP)和降维(t-SNE、PCA)的机器学习框架。通过SMOTE平衡数据集,并比较XGBoost、KNN、DT、RF和SVM等分类器,结果表明随机森林(RF)结合PCA特征 achieves 98%准确率、96.13%精确率、96.4%召回率和99.6% AUC,显著提升胎儿健康状况分类的自动化与可靠性,为临床决策支持提供新方案。
胎儿健康监测是围产期医疗的核心环节,而卡多胎图(Cardiotocography, CTG)作为评估胎儿状况的主要工具,通过持续记录胎心率(Fetal Heart Rate, FHR)和子宫收缩(Uterine Contractions, UC)信号,为医生提供关键诊断依据。然而,传统CTG解读高度依赖临床经验,不同观察者之间存在显著差异,且人工分析复杂信号耗时费力,误诊可能导致严重后果。据统计,全球每125名新生儿中就有1例先天性心脏病,而新生儿脑病发病率在不同地区高达2-30‰,其中35%的死亡与早产并发症相关。因此,开发自动化、高精度的胎儿健康评估方法已成为临床研究的迫切需求。
近年来,人工智能技术逐步应用于CTG分析,但现有研究多侧重于单一特征提取或分类模型,缺乏对多方法融合框架的深入探索。针对这一空白,来自沙特国王大学软件工程系的Ibrahim Abunadi博士在《Machine Learning with Applications》发表了一项创新研究,提出了一种集成特征工程、降维技术和多算法比较的综合性机器学习框架,旨在提升胎儿健康状况分类的准确性与可靠性。
本研究利用公开CTG数据集(含2126例孕妇的21维特征),首先通过方差膨胀因子(Variance Inflation Factor, VIF)评估特征多重共线性,采用SHAP(Shapley Additive Explanations)分析特征重要性,并应用t-SNE(t-distributed Stochastic Neighbor Embedding)和PCA(Principal Component Analysis)进行降维处理。针对类别不平衡问题(正常77.8%、疑似13.9%、病理8.3%),使用SMOTE(Synthetic Minority Over-sampling Technique)对训练集过采样。随后,系统比较了XGBoost、KNN(K-Nearest Neighbors)、DT(Decision Tree)、RF(Random Forest)和SVM(Support Vector Machine)五种分类器在降维后特征上的性能,所有模型均通过70%训练集和30%测试集严格验证。
3.3.1. Statistical analysis
数据集统计分析显示所有特征均无缺失值,但部分特征(如Histogram number of zeroes)存在高达23.61%的异常值,采用IQR(Interquartile Range)方法检测并替换。数据经Min-Max标准化处理,确保特征尺度一致。
3.3.2. Balance of dataset
SMOTE过采样后,训练集中少数类(Suspected和Pathological)样本增至1154例,与正常类平衡,测试集保持原始分布以评估泛化能力。
3.3.3. Variance Inflation Factor for feature analysis
VIF分析发现Baseline value(35.14)、Histogram width(18.65)和Abnormal short-term variability(14.41)等特征存在高相关性,通过阈值筛选(VIF>5)保留16个特征以减少冗余。
3.3.4. SHAP-Based Feature Importance and Model Interpretability
SHAP分析揭示Prolonged decelerations(13.62%)、Abnormal short-term variability(12.81%)和Time with abnormal long-term variability(11.56%)为最具预测力的特征,与临床共识一致。
3.4. Dimensionality reduction
PCA降维保留18个主成分(累计方差≥95%),t-SNE将特征空间降至16维,两者均有效保留关键分类信息。
4. Model training algorithm
分类器超参数经网格搜索优化:RF(n_estimators=150, max_depth=8)、XGBoost(n_estimators=150, learning_rate=0.1)、SVM(kernel=linear, C=70)等。
5. Experimental results
基于PCA特征的RF模型表现最佳:准确率98%、精确率96.13%、召回率96.4%、F1分数96.3%、AUC 99.6%。混淆矩阵显示其对Pathological类召回率达92.2%,显著优于其他模型。McNemar检验证实RF与XGBoost、SVM、KNN性能差异显著(p<0.05),但与DT无显著差异(p=0.78)。 ablation研究表明,PCA+SMOTE组合有效提升少数类识别能力。
6. Discussion and performance comparison
与既往研究对比(如Anisha等SVM模型92%准确率、Haque等HMM模型89.04%准确率),本框架通过集成特征工程和降维技术,将准确率提升至98%。RF模型的高灵敏度和特异性使其尤其适合临床部署,但其在Suspected类别的较低召回率(86.4%)反映了该类别的固有模糊性。未来工作需扩大数据集并探索实时临床决策支持系统(CDSS)集成。
该研究的核心意义在于首次将VIF、SHAP、t-SNE/PCA降维与多分类器比较系统化整合,为CTG分析提供了可解释、高精度的自动化解决方案。通过严格的数据预处理、统计验证和性能评估,该框架不仅显著提升胎儿异常检测可靠性,还为其他生理信号分析提供了方法论参考。未来需进一步优化实时处理延迟、模型校准和故障模式分析,以推动其向临床实践转化。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号