AlphaGenome:解码非编码DNA的“瑞士军刀”及其在复杂疾病变异 prioritization 中的挑战与前景

《TRENDS IN Genetics》:AlphaGenome: a Swiss-army knife for exploring non-coding DNA

【字体: 时间:2025年12月09日 来源:TRENDS IN Genetics 16.3

编辑推荐:

  本刊推荐:为破解非编码DNA变异功能注释难题,Google DeepMind团队开发了多模态深度学习模型AlphaGenome。该研究通过整合GTEx、ENCODE等大规模基因组数据,实现了对非编码变异分子效应(如染色质可及性、转录因子结合)的碱基对分辨率预测,并能捕捉长程调控作用。其创新性在于突破现有模型在分辨率与远端效应间的权衡局限,为GWAS位点的功能 fine-mapping 和疾病机制解析提供新工具,相关成果以预印本形式发布,对推动复杂疾病遗传基础研究具有重要意义。

  
人类基因组中约98%的序列为非编码区域,这些"暗物质"如何调控基因表达一直是遗传学领域的核心难题。随着GWAS(全基因组关联分析)技术的普及,科学家们在非编码区发现了成千上万与复杂疾病(如糖尿病、精神分裂症)和数量性状(如血压、血脂水平)相关的遗传变异,但绝大多数变异的功能机制仍属未知。非编码DNA可通过改变转录因子结合、染色质可及性、三维基因组互作或RNA剪接等方式影响细胞功能,而理解这些分子过程如何介导遗传变异与表型关联,已成为转化GWAS发现为生物学洞察的关键瓶颈。
为突破这一瓶颈,计算生物学领域开始涌现基于深度学习的序列功能预测模型。这类模型通过训练现有实验数据(如GTEx、ENCODE、FANTOM等大型项目产生的功能基因组学数据),直接从DNA序列预测变异可能引发的分子效应。然而现有模型存在两大局限:要么如Basenji2等模型虽具备碱基对分辨率却忽略远端基因组互作,要么如Enformer、Borzoi等能捕捉长程调控但牺牲了分辨率。更棘手的是,多数模型仅针对单一分子模态进行训练,难以全面呈现基因座位的调控全景。
在此背景下,Google DeepMind团队开发的AlphaGenome应运而生。该模型被作者Judit García-González和Krzysztof Gogolewski喻为"瑞士军刀",因其首次在保持碱基对分辨率的同时整合长程上下文信息,并能同步预测多组学层面的分子效应。这项发表于《Trends in Genetics》的评述文章指出,AlphaGenome的核心突破在于其统一架构可同时预测转录因子结合、染色质状态、基因表达等多种分子表型,为系统解析非编码变异功能提供了全新工具。
关键技术方法方面,研究团队主要采用三大策略:首先构建基于Transformer的神经网络架构,利用注意力机制捕捉DNA序列中的长程依赖关系;其次整合大规模bulk-tissue功能基因组学数据集进行多任务学习,使模型能同时预测多种分子模态;最后通过引入归因分析方法(如内置重要性评分算法)增强模型可解释性,帮助识别驱动预测的关键核苷酸或序列模体。需特别说明的是,模型训练主要依赖公共数据库的样本资源,未涉及新的湿实验数据生成。
变异优先排序的基准测试
为评估AlphaGenome在疾病变异 prioritization 中的应用潜力,研究者设计了严谨的基准测试框架。由于可靠阳性对照(已知致病性变异)数量有限,团队采用两种阴性对照选择策略:一是选用因果可能性极低的变异,二是根据等位基因频率、连锁不平衡等基线特征匹配阴性变异集。随后将AlphaGenome预测的分子效应作为特征,分别训练随机森林分类器和零样本学习模型。结果显示随机森林性能普遍优于零样本方法,但更关键的是,模型表现高度依赖于阴性对照的选择策略,这凸显了稳健变异 prioritization 仍面临重大挑战。
多模态预测的整合优势
AlphaGenome的突出优势在于能同步评估变异对多分子层级的效应。在TAL1致癌基因座的案例中,模型通过整合染色质可及性、转录因子结合位点等预测,成功复现了已知致病变异的分子表型。这种多模态框架特别适用于解析复杂基因座,其预测结果可增强统计精细定位(fine-mapping)方法,例如通过将分子效应概率纳入贝叶斯模型,提高因果变异推断准确性。此外,模型还能指导后续功能验证实验——通过系统预测GWAS位点内所有可能变异的分子后果,为CRISPR筛选等耗时实验提供优先靶点建议。
组织特异性与远端调控的局限
尽管AlphaGenome表现出色,作者指出其仍存在明显局限性。模型主要基于 bulk-tissue 数据训练,对稀有细胞类型或代表性不足组织的预测可靠性较低,且对远端调控元件的预测性能会下降——而这恰是GWAS热点区域的重要特征。更根本的是,模型尚未涵盖基因-基因互作、发育动态调控等复杂生物学过程。研究者强调,即使模型能完美预测所有组织类型的分子效应,仍需要回答"哪些其他基因参与调控?""效应是否具有组织特异性或发育阶段依赖性?"等更深层问题。
从更广阔的视角看,AlphaGenome是DeepMind生物学工具链的重要延伸。它与预测蛋白质结构的AlphaFold、评估错义变异致病性的AlphaMissense、以及从事蛋白质从头设计的AlphaProteo共同构建了覆盖"DNA-RNA-蛋白质"不同层面的技术矩阵。这种多层级建模能力正推动分子生物学中心法则的数字化革命。
讨论部分指出,对于效应较大的罕见病变异,AlphaGenome的预测可能较快转化为临床应用;但对复杂疾病而言,仍需整合单细胞测序、时空组学等新技术来提升模型效能。特别值得关注的是模型可解释性的提升——通过归因分析方法识别关键核苷酸,将帮助研究者形成可验证的假说。然而这些进展的前提是模型代码和权重的公开,以及允许研究者微调模型的用户协议。正如作者所言,开放协作的开发模式将决定AlphaGenome能否真正成为非编码变异研究的普惠工具。
最终,这项研究的意义超越技术本身:它促使遗传学研究从单纯的变异注释转向机制假说生成,为破解非编码DNA的调控密码提供了全新范式。尽管完全理解遗传变异如何通过分子网络影响人类表型仍前路漫漫,AlphaGenome无疑为这条道路树立了新的里程碑。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号