DNABERT-S:基于物种感知DNA嵌入的创新基因组模型推动物种分化研究

【字体: 时间:2025年07月16日 来源:Bioinformatics 4.4

编辑推荐:

  研究人员针对基因组序列物种分化难题,开发了DNABERT-S模型。该研究通过创新的Manifold Instance Mixup(MI-Mix)对比学习策略和Curriculum Contrastive Learning(C2LR)方法,在28个数据集中实现物种聚类ARI指数翻倍,仅需2-shot训练即可超越基线10-shot性能,为微生物组研究和生物多样性保护提供了突破性工具。

  

在生命科学领域,准确区分基因组序列的物种来源是理解生物多样性、追踪流行病传播和解析微生物组功能的关键。然而,自然界中绝大多数物种尚未被表征,缺乏参考基因组使得传统比对方法失效。现有DNA嵌入方法如四核苷酸频率(TNF)或K-mer模型难以捕捉复杂序列特征,而基因组基础模型(Genome foundation models)又因预训练目标与物种分化需求不匹配而表现欠佳。这一困境在宏基因组分箱(Metagenomics binning)中尤为突出——当面对包含数千种未知微生物的复杂样本时,研究人员亟需能自主聚类DNA序列的创新方法。

针对这一挑战,美国西北大学(Department of Computer Science, Northwestern University)和劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的研究团队开发了DNABERT-S模型。该研究以DNABERT-2预训练模型为基础,通过两项关键技术突破:在隐藏层随机混合DNA序列特征的流形实例混合(Manifold Instance Mixup, MI-Mix)目标函数,以及分阶段增加训练难度的课程对比学习(Curriculum Contrastive Learning, C2LR)策略,使模型生成的嵌入向量能自然聚类同种DNA序列并分离异种序列。研究成果发表在《Bioinformatics》期刊,在物种聚类、分类和宏基因组分箱等任务中展现出显著优势。

研究主要采用三项关键技术:1) 基于17636个病毒基因组和11413个微生物基因组的对比学习训练集构建;2) 分阶段训练策略——首阶段采用加权SimCLR进行基础特征学习,次阶段引入MI-Mix增强模型对混合特征的辨别能力;3) 在28个数据集(包括CAMI2基准和合成数据集)上系统评估聚类(ARI指数)、分类(F1分数)和分箱效果。

模型架构

DNABERT-S创新性地在神经网络中间层实施序列特征混合:随机选择隐藏层将不同DNA序列的表示向量按Beta分布权重混合,迫使模型识别混合比例并区分物种特征。这种"特征鸡尾酒"式训练使嵌入空间形成清晰的物种边界,如图1所示:

性能突破

在聚类任务中,DNABERT-S以53.8的平均ARI指数碾压所有基线(表1),较最优传统方法TNF-K(26.3)实现100%提升。在更具挑战性的宏基因组分箱任务中(图3),模型从海洋和植物样本中识别出的高精度(F1>0.5)物种数量是基线的两倍:

少样本学习

仅用2个标记样本训练时,DNABERT-S分类性能(图4)已超越基线10-shot水平,在200类合成数据上达到F1=0.8,证明其强大的小样本泛化能力:

方法优势

消融实验(表2)证实MI-Mix和C2LR的协同效应——单独使用加权SimCLR或MI-Mix时性能下降1-6个百分点。研究还发现DNABERT-2骨架模型经对比训练后性能提升39个ARI点(表3),显著优于HyenaDNA的23.3点提升,确立了其在DNA嵌入任务中的优势地位。

该研究的创新价值体现在三方面:1) 首次证明基因组基础模型通过针对性训练可产生优质DNA嵌入;2) 开发的MI-Mix方法为生物序列表示学习提供了新范式;3) 构建的包含数千物种的评估基准将持续推动领域发展。尽管存在计算资源需求较高的局限,但DNABERT-S已展现出改变宏基因组分析范式的潜力——仅凭序列嵌入即达到专业分箱工具SemiBin2的性能(图5),为探索"暗物质"微生物组开辟了新途径。未来通过模型压缩和特征降维(如将512维嵌入降至128维仍保持90%性能),这项技术有望广泛应用于环境监测、临床诊断和生物安全等领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号