
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于新生儿脐带血CpG位点甲基化变化的机器学习模型预测早产风险
【字体: 大 中 小 】 时间:2025年07月23日 来源:BMC Pregnancy and Childbirth 2.8
编辑推荐:
本研究针对早产(PTB)这一全球性健康难题,创新性地利用新生儿脐带血中66个差异甲基化CpG位点,通过Lasso、随机森林(Random Forest)等机器学习算法构建了45种预测模型。南京医科大学附属苏州医院等团队开发的四种组合模型(如随机森林+Lasso)验证准确率达93.75%,为早产风险早期评估提供了高精度的表观遗传学标志物。
早产(Preterm Birth, PTB)是导致新生儿死亡和长期健康问题的首要原因,全球每年有超过1500万例早产儿出生。尽管医学技术不断进步,但早产率数十年来未见显著下降,这与其复杂的发病机制密切相关——传统风险因素如感染、高血压等仅能解释部分病例。更棘手的是,临床缺乏可靠的早期预测手段。近年来,表观遗传学(Epigenetics)研究揭示,DNA甲基化(DNA methylation)这种不改变基因序列的可遗传修饰,可能通过调控炎症、胎盘发育等通路影响早产风险。然而,如何将分散的甲基化数据转化为临床可用的预测工具,仍是亟待突破的科学难题。
南京医科大学附属苏州医院肿瘤科冯玉新团队联合北京师范大学地理科学学院、上海中医药大学附属曙光医院等机构,在《BMC Pregnancy and Childbirth》发表了一项开创性研究。研究人员从GSE110828数据库获取110例东亚人群新生儿脐带血甲基化数据(65例早产儿+45例足月儿),通过机器学习技术首次构建了基于CpG甲基化特征的早产预测体系。
研究采用三大关键技术:① 基于limma R包的差异甲基化分析(|Log2FC|>0.1,adj.p.val<0.05);② Lasso、弹性网络(Elastic Net)等5种算法筛选关键CpG位点;③ 9种分类器(如梯度提升机GBM、支持向量机SVM)构建45种预测模型。所有分析均采用80%训练集+20%测试集的严格验证策略。
研究发现66个显著差异的CpG位点(22个高甲基化,44个低甲基化),如cg00166343、cg02001279等。热图显示这些位点能清晰区分早产与足月样本。

五类算法筛选出15-39个关键CpG位点,其中Lasso和弹性网络共同锁定cg00166343等核心位点,随机森林则额外识别出cg00602416等非线性关联位点。

四种组合模型表现最优:

这项研究首次证明脐带血CpG甲基化特征可作为早产的精准预测标志物。其创新性体现在三方面:① 突破性地将表观遗传数据转化为临床可用的分类工具;② 通过机器学习整合线性(如Lasso)与非线性的特征(如随机森林),提升模型鲁棒性;③ 为早产机制研究提供新的表观遗传学视角。尽管存在样本量有限、需外部验证等局限,但该成果为开发无创产前筛查技术奠定了重要基础,未来结合胎盘或母血甲基化数据有望实现更早期的风险预警。
研究团队特别指出,甲基化时钟(gestational clocks)与离散风险预测模型的协同应用,可能是未来优化妊娠管理的方向。正如同期研究所示,这种"二元分类+连续预测"的双轨策略,或将重塑围产期健康评估范式。
生物通微信公众号
知名企业招聘