G4mer:基于RNA语言模型的转录组范围G四链体识别及疾病变异功能解析新工具

《Nature Communications》:G4mer: An RNA language model for transcriptome-wide identification of G-quadruplexes and disease variants from population-scale genetic data

【字体: 时间:2025年11月21日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对RNA G四链体(rG4)功能解析及遗传变异影响评估的计算瓶颈,开发了基于Transformer的RNA语言模型G4mer。该模型在rG4形成预测和亚型分类方面显著优于现有方法,成功识别出乳腺癌相关基因5'UTR变异对rG4结构的调控作用,并通过圆二色谱和双荧光素酶实验验证了变异对结构和基因表达的影响,为研究非编码变异功能机制提供了新范式。

  
在基因表达的复杂调控网络中,RNA G四链体(RNA G-quadruplexes, rG4s)作为一种重要的调控元件日益受到关注。这些由鸟嘌呤富集区域形成的特殊二级结构,在翻译调控、可变剪接和多聚腺苷酸化等关键生物学过程中发挥着重要作用。然而,由于技术限制,我们对于遗传变异如何影响rG4形成及其功能后果的理解仍然有限。传统计算方法往往难以准确预测非经典rG4亚型,且在长序列上的表现不佳,这限制了我们从全转录组层面系统解析rG4功能及其与疾病关联的能力。
针对这一挑战,来自宾夕法尼亚大学和北卡罗来纳大学教堂山分校的研究团队在《Nature Communications》上发表了题为"G4mer: An RNA language model for transcriptome-wide identification of G-quadruplexes and disease variants from population-scale genetic data"的研究成果。该研究开发了基于Transformer架构的RNA语言模型G4mer,能够精准预测rG4形成、分类不同亚型,并评估遗传变异对rG4结构的影响。
研究团队采用的关键技术方法包括:基于BERT架构的RNA语言模型预训练和微调、gnomAD和ClinVar数据库的群体遗传学分析、Penn Medicine BioBank(PMBB)队列的病例对照关联分析、双荧光素酶报告基因实验验证基因表达变化,以及圆二色谱(Circular Dichroism, CD)验证rG4结构变化。
G4mer是基于Transformer的模型,可提高rG4形成和亚型预测的准确性
研究团队首先在整个人类转录组上预训练mRNAbert模型,然后使用rG4-seq实验数据对其进行微调,开发出G4mer模型。与现有的CNN-based rG4detector相比,G4mer在rG4二元预测和亚型多类预测方面均表现出显著优势,准确度分别达到0.94和0.74。更重要的是,G4mer对不同长度序列的预测鲁棒性更强,特别是在处理长达数百至数千核苷酸的UTR区域时表现优异。
G4mer支持转录组范围rG4改变变异的定位以评估其功能意义
应用G4mer分析gnomAD数据库中的单核苷酸变异(SNVs),研究发现破坏rG4结构的变异(rG4-breaking variants)在人群中的等位基因频率显著降低,表明这些变异受到负向选择压力。特别值得注意的是,较长的rG4序列表现出更强的进化约束,提示长rG4可能具有重要的调控功能。rG4破坏程度(ΔG4mer得分)与CADD评分呈正相关,进一步支持rG4破坏变异可能具有功能重要性。
G4mer揭示G4亚型间的遗传变异差异和rG4侧翼区域的调控信号
研究发现不同rG4亚型对遗传变异的敏感性存在显著差异,其中two-quartet亚型对变异最为敏感。通过Enhanced Integrated Gradient(EIG)分析发现,rG4侧翼序列的组成,特别是鸟嘌呤和尿嘧啶的含量,对rG4形成预测有重要贡献。进一步分析发现,rG4侧翼区域富含RNA结合蛋白(RBP)结合 motif,如5'UTR中富集hnRNP F/H和SRSF4/6结合 motif,而3'UTR中富集ELAVL1/3结合 motif。
非编码rG4改变变异与乳腺癌相关并调控基因表达
研究发现ClinVar数据库中标注为致病性的变异在rG4区域表现出更强的破坏效应。通过PMBB队列的疾病表型全基因组关联分析(PheWAS),鉴定出EPN3基因5'UTR的一个rG4破坏变异与乳腺癌显著相关。双荧光素酶实验证实,EPN3的rG4破坏变异和MSH6的rG4形成变异均能显著降低蛋白表达水平。圆二色谱实验进一步验证了这些变异对rG4结构的影响:在钾离子缓冲液中,野生型EPN3 RNA在260nm处显示特征性正峰,而突变型该峰显著降低;相反,MSH6突变型在相同条件下显示rG4特征峰,而野生型则无。
该研究开发的G4mer模型在rG4预测方面表现出卓越性能,特别在处理长序列和识别非经典亚型方面优势明显。研究首次在转录组层面系统揭示了rG4改变变异的进化约束模式和功能重要性,并通过实验验证了其在乳腺癌中的调控作用。这些发现不仅深化了我们对rG4生物学功能的理解,也为解析非编码变异的致病机制提供了新思路。G4mer作为开源工具,将促进rG4在人类遗传学和疾病研究中的广泛应用。随着多祖先基因组数据的积累,该框架有望在不同人群中揭示新的疾病关联,推动精准医学发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号