
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习模型的非实验室数据自然受孕预测新策略:一项耦合社会人口学与性健康因素的前瞻性研究
【字体: 大 中 小 】 时间:2025年07月16日 来源:Reproductive Sciences 2.6
编辑推荐:
本研究针对自然受孕预测的临床难题,创新性地采用机器学习(ML)技术分析197对夫妇的社会人口学及性健康数据。通过XGB Classifier等5种算法建模,筛选出BMI、咖啡因摄入等25项关键预测因子,首次实现基于非实验室数据的自然受孕预测(准确率62.5%,ROC-AUC 0.580),为初级医疗机构的生育力评估提供了便捷工具。
在当代生殖医学领域,自然受孕概率的准确预测始终是困扰临床医生的难题。传统预测模型如Hunault模型依赖过时的性交后试验(PCT),Bensdorp模型需要复杂的内分泌检测,这些实验室依赖型方法在基层医疗机构难以推广。更棘手的是,现有模型多聚焦单方因素,忽视了夫妇作为生育单元的整体性。面对这些瓶颈,埃斯基谢希尔奥斯曼加齐大学健康科学学院的研究团队独辟蹊径,尝试用机器学习解码非实验室数据中的生育密码。
这项发表在《Reproductive Sciences》的研究创新性地采用前瞻性队列设计,纳入98对1年内自然受孕的夫妇和99对不孕夫妇。通过结构化表格收集63项参数后,运用Permutation Feature Importance方法筛选25个关键变量,包括女性BMI、月经周期特征、子宫内膜异位症(endometriosis)史,以及男性精索静脉曲张(varicocele)、热暴露等。研究团队特别构建了5种机器学习模型(Random Forest/XGB Classifier等),采用80%训练集+20%测试集的验证策略,最终通过ROC-AUC等指标评估模型效能。
女性特征分析
数据显示女性中位年龄30岁,BMI 26.4,41.1%每日摄入咖啡因,21.3%患多囊卵巢综合征(PCOS)。规律月经者占87.8%,但6.6%有阴道痉挛(vaginismus)史。这些参数经特征选择后,BMI、初潮年龄、子宫手术史等成为核心预测因子。
男性特征分析
男性伴侣中52.8%吸烟,13.2%患精索静脉曲张,7.1%接受过精索静脉曲张切除术(varicocelectomy)。模型筛选出青春期启动年龄、化学物质暴露等独特预测指标,凸显环境因素对男性生育力的影响。
模型性能比较
XGB Classifier以62.5%准确率(ROC-AUC 0.580)成为最佳模型,但所有算法预测效能均未超过0.6。Extra Trees Classifier虽达到0.586的ROC-AUC,其敏感性仅55%,反映出现有数据维度对复杂生育机制的解析局限。值得注意的是,Logistic Regression表现最弱(ROC-AUC 0.432),印证了传统线性方法在非线性生育预测中的不足。
这项研究首次证实了非实验室数据在生育预测中的可行性,其创新价值体现在三方面:首先,突破实验室检测依赖,仅用问诊可获数据实现中等精度预测;其次,首创"夫妇共同体"分析框架,同步整合双方25项生物-行为-环境指标;最后,为基层医疗机构开发了低成本的AI筛查工具。尽管当前模型精度有待提升,但研究揭示的生活方式因素(如咖啡因摄入)和环境暴露(如化学制剂)为生育干预提供了新靶点。
未来研究需在三大方向突破:扩大样本量以提升模型鲁棒性,纳入动态激素监测等生物标志物,以及开发面向夫妇的移动端预测应用。这项开创性工作为人工智能在生殖健康领域的转化应用铺设了基石,其"低成本、高效率、夫妇本位"的理念,或将重塑现代生育力评估的临床路径。
生物通微信公众号
知名企业招聘