基于Transformer架构的多组学整合模型在早产风险预测中的创新应用

【字体: 时间:2025年08月22日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对早产(PTB)预测难题,创新性地开发了基于Transformer架构的大型语言模型(LLM),整合cfDNA和cfRNA多组学数据,构建了高性能预测模型。研究人员通过两个前瞻性队列(682例样本),首次实现cfDNA(AUC=0.822)与cfRNA(AUC=0.851)数据的深度学习融合,最终模型AUC达0.890。该研究为AI驱动的精准产科提供了新范式,揭示了RNA编辑在PTB预测中的新价值。

  

早产(Preterm Birth, PTB)作为妊娠期最常见的并发症之一,每年影响着全球数百万家庭。尽管医学技术不断进步,但PTB的发生率在过去几十年间居高不下,仍是导致围产儿死亡和长期神经系统后遗症的首要原因。传统预测方法如临床风险评估和单一生物标志物检测,其准确性往往难以满足临床需求,AUC普遍低于0.75。这一困境背后,反映出现有技术对PTB复杂病理机制的认知局限——涉及遗传易感性、胎盘功能障碍、母体炎症反应等多维度因素的动态交互。

正是在这样的背景下,由Si Zhou、Chenchen Guan等17位研究者组成的跨学科团队在《npj Digital Medicine》发表了突破性研究成果。该研究创新性地将自然语言处理领域的Transformer架构引入生物医学领域,开发了首个能够整合细胞游离DNA(cell-free DNA, cfDNA)和细胞游离RNA(cell-free RNA, cfRNA)多组学数据的预测系统。这一工作不仅实现了PTB预测准确率的显著提升(AUC 0.890),更重要的是建立了可扩展的多组学分析框架,为理解PTB的分子机制打开了新窗口。

研究团队采用了两项关键技术路线:一是基于GeneLLM预训练模型的迁移学习策略,将基因变异和表达数据转化为统一的"生物语言" token序列;二是创新的多模态整合方法,通过RNA编辑分析桥接cfDNA突变与cfRNA表达谱。样本来源于中国两个前瞻性队列——深圳龙岗妇幼保健院(LG)的502例和福建省妇幼保健院(FJ)的180例孕妇,通过严格的嵌套病例对照设计确保数据质量。

Cohort characteristics and multi-omics sequencing for PTB analysis

研究团队建立了包含682例孕妇的两中心前瞻性队列,采用cfDNA(20X深度测序)和PALM-Seq(捕获多种RNA类型)技术同步获取多组学数据。队列分析显示PTB组白细胞升高比例达71%(vs 36.3%),新生儿体重显著降低(2201.2±541.8g vs 3235.8±359.2g),证实了炎症与胎儿生长受限的关联性。

Transformer-based model design and performance evaluation

研究设计的核心创新在于将cfDNA变异转换为二进制基因组窗口向量,cfRNA表达量通过log2(TPM+1)标准化后量化为整数计数,共同输入GeneLLM疾病调优模块。模型在测试集上表现出色:cfDNA单模态AUC 0.822(95% CI:0.737-0.907),cfRNA单模态AUC 0.851(0.759-0.943),而多模态整合模型AUC进一步提升至0.890(0.827-0.953),显著优于传统机器学习方法。

Integrative analysis of cfRNA and cfDNA in PTB prediction

通过DEMINING软件进行的RNA编辑分析揭示,96.9±2.4%的编辑事件为cfRNA特异性,仅3.1±2.4%与cfDNA突变重叠。值得注意的是,基于RNA编辑特征的随机森林模型AUC达0.82,显示多组学整合可提取互补的生物信息。研究还发现PTB组RNA编辑事件显著增多,提示转录后调控在PTB发生中的潜在作用。

Comprehensive analysis of cfRNA in PTB pathophysiology

差异表达分析鉴定出3700个上调基因(富集于T细胞激活通路)和280个下调基因(与血管生成异常相关)。ceRNA网络分析发现hsa-miR-17-5p下调导致其靶基因TNFRSF10B和ICAM1表达升高,同时竞争性内源RNA如KMT2E-AS1和TP73-AS1表达增加,共同构成促炎-血管功能障碍的正反馈环路。

这项研究的科学价值体现在三个维度:方法论上,首次验证了Transformer架构在整合cfDNA-cfRNA多组学数据中的独特优势,其注意力机制能有效捕捉跨模态的基因组-转录组关联;临床上,建立的非侵入性预测模型AUC突破0.89,较现有技术提高15-20%,且可在孕早期(11周)实现风险预警;机制上,通过多组学透镜揭示了RNA编辑和ceRNA网络在PTB中的调控作用,为后续机制研究指明方向。

研究团队也客观指出了当前局限:样本均来自汉族人群,需在更多族裔中验证;模型的"黑箱"特性使生物学解释面临挑战;临床转化仍需明确风险阈值。为此,团队已启动覆盖中国10省12市的超大规模出生队列(17,000例),将整合基因组、蛋白质组等更多维度数据,推动AI驱动的新型产前筛查范式走向临床实践。这项工作标志着计算医学在围产健康领域的重要突破,为其他复杂疾病的预测研究提供了可借鉴的技术路线。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号