MutBERT:基于概率基因组表征的基因组学基础模型创新研究

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  本研究针对基因组基础模型在捕捉人类群体遗传变异(如SNPs)时存在的效率瓶颈,提出了一种创新的概率基因组表征方法MutBERT。通过将全基因组表示为基于等位基因频率的概率分布,该模型有效解决了传统掩码语言模型(MLM)在训练中面临的稀疏性和冗余性问题。实验表明MutBERT在转录因子结合位点预测、表观遗传标记预测等24个下游任务中表现优异,为利用生物样本库规模基因组数据提供了新范式。

  

基因组学研究正面临一个关键挑战:如何从海量群体基因组数据中有效捕捉遗传变异信息。传统基因组基础模型如DNABERT和Nucleotide Transformer虽然取得了显著进展,但在处理人类群体数据时仍存在明显局限。这些模型通常直接在全基因组序列上训练,难以高效学习稀疏分布的单核苷酸变异(SNPs),同时训练过程中对非变异区域的冗余计算也造成了资源浪费。随着1000基因组计划等大型生物样本库数据的积累,开发能充分利用群体遗传多样性的新型计算方法变得尤为迫切。

香港科技大学(广州)数据科学与分析学域的研究团队在《Bioinformatics》发表了突破性研究。针对现有模型的不足,他们创新性地提出了MutBERT——一种基于概率基因组表征的掩码语言模型。该模型通过将基因组序列表示为基于等位基因频率的概率分布矩阵,使模型能直接学习群体水平的遗传变异信息,而非像传统方法那样需要从大量个体基因组中间接推断。这种表征方式不仅提高了训练效率,更使模型能聚焦于具有生物学意义的变异区域。

研究采用了多项关键技术:1)概率基因组表征方法,基于1000基因组计划和多物种比对数据构建4×L维概率矩阵;2)改进的RoPE(Rotary Position Embedding)位置编码技术,支持可变长度序列处理;3)Flash Attention加速计算;4)温度缩放(τ=0.7)的交叉熵损失函数优化。实验设计上,研究人员在人类参考基因组、1000基因组(3202个高覆盖基因组)和100物种多序列比对数据上分别训练了MutBERT-Ref、MutBERT和MutBERT-Multi三个变体,采用染色体22作为验证集。

模型架构与表征部分显示,MutBERT采用12层Transformer编码器结构,参数量86M,通过线性层将概率矩阵映射为嵌入向量。如图1所示,其创新性输入表征将每个位点编码为A/T/C/G的概率分布,对SNV位点实施针对性掩码策略(15%掩码率,80%替换为[MASK])。这种设计使模型在预训练阶段就能学习群体等位基因频率,而非像传统方法那样需要从大量个体中重复学习相同变异。

下游任务评估结果令人瞩目。在GUE基准的TFBS预测任务中,MutBERT以平均MCC 68.29的成绩超越DNABERT-2;在NT基准的18个表观遗传和调控元件预测任务中,其平均MCC达65.82,仅次于参数量25亿的NT-2500M-Multi。特别值得注意的是,在剪接位点预测任务上,MutBERT对供体位点(splice donor)的预测准确率(MCC 94.44)接近最优模型,证实其对单核苷酸变异的敏感捕捉能力。eQTL变体效应预测中,MutBERT在TSS远端区域(>100kb)的AUROC达0.568,展示了RoPE对长序列的良好外推能力。

讨论部分强调了该研究的双重突破:方法论上,概率基因组表征首次实现了直接从群体频率数据中学习变异模式,避免了传统方法对个体基因组重复训练的低效;应用价值上,86M参数的紧凑模型在多项任务中媲美甚至超越更大模型,为资源受限场景提供了实用方案。研究也指出当前框架在多物种高密度变异区域的局限性,这为未来改进指明了方向。

这项研究为基因组学基础模型的发展开辟了新路径。通过将群体遗传学原理深度融入深度学习架构,MutBERT不仅提升了模型效率,更建立了连接群体变异数据与功能基因组预测的桥梁。随着UK Biobank等更大规模数据的开放,这种概率表征方法有望成为处理生物样本库规模数据的新标准,加速从基因组变异到表型理解的转化研究进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号