妊娠次数与血清25-羟基维生素D水平的关联研究:基于机器学习预测模型与SHAP特征重要性评估的横断面分析

【字体: 时间:2025年09月23日 来源:Frontiers in Endocrinology 4.6

编辑推荐:

  本研究通过横断面分析揭示妊娠次数(gravidity)与血清25-羟基维生素D [25(OH)D]水平呈独立负相关(每增加一次妊娠,25(OH)D降低0.6 nmol/L)。基于XGBoost算法构建的预测模型(AUC=0.73)整合生殖史与生化指标,首次将妊娠次数作为维生素D不足(<50 nmol/L)的关键预测因子,为高危人群筛查提供临床可用的智能化工具。

  

引言

25-羟基维生素D [25(OH)D]作为脂溶性固醇代谢物,是循环中维生素D的主要形式及储存形态,通过促进肠道钙磷吸收维持骨骼健康。低血清25(OH)D水平已成为多种疾病的共同危险因素,涉及骨骼疾病、心血管疾病、高血压、自身免疫性疾病、肥胖、糖尿病、慢性肾病及抑郁障碍。全球约30%-50%人群存在严重25(OH)D缺乏(血清水平<10 ng/mL),即使近赤道地区亦普遍存在。

现有研究多关注维生素D与单次妊娠的关联:低维生素D状态强烈关联妊娠期糖尿病(GDM)发展;早孕期低25(OH)D水平与早产风险升高及子代长期发育不良结局相关。尤其值得注意的是,对黑人女性的基因表达分析发现,维生素D缺乏可显著影响中性粒细胞相关基因表达,提示其可能作为早产关联基因表达的关键临床生物标志物。

妊娠次数(gravidity)定义为总妊娠次数,已知会增加心房颤动、妇科癌症及GDM等疾病风险。多次妊娠可能扰乱女性内分泌平衡,但妊娠次数与维生素D状态的关联研究仍不足。探索该联系有助于解释妊娠次数如何影响维生素D浓度,并为多次妊娠女性提供针对性营养指导,减少低维生素D导致的妊娠并发症。

本研究主要目的是利用NHANES数据库数据,探讨美国女性妊娠次数与血清25(OH)D水平的关系;次要目的是构建机器学习预测模型,结合妊娠次数及其他基础生化指标,评估有妊娠史女性的低血清维生素D风险。机器学习作为快速发展的学科,已广泛应用于医疗健康等领域,其处理复杂变量关系的能力优于传统统计方法,为预测模型开发提供方法学依据。

信息与方法

样本来源与筛选

本研究采用2011-2018年NHANES四个周期的横断面数据,共39,156名参与者。经排除缺失维生素D或妊娠次数数据的个体后,最终纳入8,003名有妊娠史的女性(年龄≥20岁,含绝经后女性)。当前妊娠者被保留以确保样本代表性与外部有效性,并通过统计调整控制其潜在影响。所有参与者均签署书面知情同意,数据收集获国家卫生统计中心伦理审查委员会批准。

25(OH)D浓度测量

血清25(OH)D浓度通过标准化液相色谱-串联质谱法(LC-MS/MS)测定,早期数据经回归转换统一至LC-MS/MS标准以确保可比性。

生殖健康问卷

通过计算机辅助个人访谈系统收集生殖史数据,包括初产年龄(AFLB)、妊娠次数(含当前妊娠、活产、流产、死产、宫外孕或终止妊娠)及活产次数。妊娠次数作为连续变量用于统计模型。

协变量评估

收集人口统计学数据(年龄、种族/民族)、体重指数(BMI)、糖尿病状态(HbA1c≥6.5%或医生诊断)、教育水平及实验室指标(HbA1c、高密度脂蛋白胆固醇、ALT、肌酐、血尿素氮(BUN)、AST等)。

统计分析

未使用调查权重,因研究重点为变量间关联模式而非人口参数估计。按25(OH)D不足阈值(<50 nmol/L)分组后,采用χ2检验分析分类变量,线性回归分析妊娠次数与25(OH)D的关联,并构建三个层级模型:模型1(未调整)、模型2(调整年龄和种族)、模型3(调整所有潜在混杂因素)。

模型开发与评估

数据按70:30分为训练集与验证集,采用六种机器学习算法(随机森林(RF)、XGBoost、LightGBM、决策树、多层感知机(MLP)、支持向量机(SVM))构建分类模型。通过10次重复10折交叉验证确保稳定性,以ROC曲线下面积(AUC)为主要判别指标,辅以准确率(ACC)、阳性预测值(PPV)、阴性预测值(NPV)、敏感性(SEN)、特异性(SPE)、F1分数、马修斯相关系数(MCC)、Kappa值及Brier评分综合评估性能。采用决策曲线分析(DCA)评估临床实用性,并通过SHAP值解释模型特征重要性。

结果

基线特征

参与者平均年龄52.44岁(SD=16.56),种族/民族分布多样(非西班牙裔白人占37.69%)。血清25(OH)D平均水平68.3 nmol/L,缺乏患病率29.4%;平均活产次数2.2,平均妊娠次数2.7(范围1-12)。

妊娠次数与25(OH)D的关联

所有模型均显示妊娠次数与25(OH)D呈负相关。完全调整后(模型3),每增加一次妊娠,25(OH)D降低0.6 nmol/L(b=-0.6, 95%CI: -0.9至-0.2)。按妊娠次数四分位分组后,最高分位组比较最低分位组每增加一次妊娠25(OH)D降低3.6 nmol/L(趋势p<0.001)。

模型性能

XGBoost算法在训练集(AUC=0.92)和验证集(AUC=0.73)均表现最佳,优于其他算法及多元回归分析。DCA显示XGBoost模型在全阈值范围内净收益高于"全干预"与"无干预"策略。综合指标(ACC、PPV、NPV等)均显示优异性能。Kappa值在训练集(0.56)和验证集(0.23)表现稳定。

特征重要性可视化

SHAP分析显示特征重要性排序依次为:年龄、BMI、血尿素氮、糖化血红蛋白、碱性磷酸酶、ALT、初产年龄、胆固醇、甘油三酯、妊娠次数、尿酸、肌酐、AST。妊娠次数作为核心研究变量,其SHAP值方向与负关联结果一致,进一步验证了主要发现。

讨论

本研究首次揭示美国有妊娠史女性中妊娠次数与血清25(OH)D水平的独立负关联,并通过机器学习模型验证该关系。XGBoost模型将妊娠次数作为维生素D不足的非忽视预测特征,其性能优于传统方法(AUC=0.73)。模型同时识别年龄、BMI、血尿素氮为最关键预测因子。

现有研究多关注单次妊娠中维生素D的作用,而忽视多次妊娠的累积影响。本研究填补该空白,表明累积妊娠史可能通过内分泌干扰或代谢消耗导致维生素D水平下降。结果与妊娠次数增加某些疾病风险(如GDM)的已知证据一致,提示维生素D状态可能是介导该风险的因素之一。

基于主要发现开发的预测工具整合妊娠次数与生化指标,可特异性识别多次妊娠女性这一高危群体,提升筛查效率。工具设计注重临床实用性,通过简易输入实现风险分层,为针对性补充与干预提供依据。

研究局限性包括横断面设计无法推断因果关系,可能存在未测量混杂(如饮食、日照);样本源于美国人群,外推至其他地区需谨慎;未纳入无妊娠史女性,限制结论广度。未来需前瞻性研究及跨区域验证以强化结论。

结论

主要发现:在美国有妊娠史女性中,妊娠次数与血清25(OH)D水平呈稳健负关联,多次妊娠可能对维生素D状态产生累积不利影响。次要发现:XGBoost模型有效预测维生素D不足,整合生殖因素与临床指标,具备转化应用潜力。研究启示需针对多次妊娠女性制定维生素D补充与筛查策略,以改善母婴健康结局。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号