
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练DNA语言模型的系统发育树高效更新方法PhyloTune研究
【字体: 大 中 小 】 时间:2025年07月27日 来源:Nature Communications 14.7
编辑推荐:
本研究针对大规模DNA序列数据下系统发育树更新效率低下的问题,开发了基于预训练DNA语言模型BERT的PhyloTune方法。研究人员通过分层线性探针(HLP)精准识别新序列的最小分类单元,利用注意力机制提取高关注区域,显著减少了序列比对和树推断的计算负担。实验证明该方法在保持准确性的同时将计算复杂度从O(NL logL)+O(N2)降至O(nl logl)+O(n2),为Embryophyta植物和Bordetella菌属的系统发育研究提供了高效解决方案,相关成果发表于《Nature Communications》。
在生命科学领域,系统发育树如同描绘生命演化的"族谱",但其构建过程却面临着数据爆炸带来的严峻挑战。随着高通量测序技术的普及,DNA序列数据呈指数级增长,传统的系统发育分析方法如FastTree、RAxML等已难以应对海量数据处理需求。特别是当需要将新发现的物种纳入现有系统发育树时,重建整棵树的计算成本令人望而生畏——序列数量和长度的增加会导致计算资源需求呈超指数级增长。更棘手的是,长序列中可能包含的噪声和不一致性,常常导致系统发育推断出现偏差。
针对这一难题,浙江大学等机构的研究人员另辟蹊径,将自然语言处理领域的预训练模型引入系统发育分析,开发出名为PhyloTune的创新方法。这项发表在《Nature Communications》的研究,巧妙利用了DNA序列与自然语言的相似性,通过预训练的DNABERT模型提取序列特征,实现了系统发育树的高效更新。
研究团队采用了两大核心技术策略:首先基于分层线性探针(HLP)架构,将分类任务分解为类(class)、目(order)、科(family)、属(genus)四个层级,通过加权交叉熵损失函数解决类间不平衡问题;其次利用Transformer模型的注意力机制,从序列中自动筛选对分类贡献最大的高关注区域。实验设计上,研究人员构建了包含157,742条Embryophyta植物序列和Bordetella菌属核心基因数据集,通过模拟数据和真实数据验证方法性能。关键评估指标包括分类准确率、AUROC曲线下面积以及标准化Robinson-Foulds(RF)距离等。
【分类单元精准识别】
通过分层线性探针(HLP)的层级设计,PhyloTune在Plant数据集上展现出卓越的分类性能。与冻结骨干网络的基线方法相比,在科(family)级别的分类任务中,精确度(precision)提升35.0%,召回率(recall)提高15.5%,F1值提升18.96%。特别值得注意的是,该方法创新性地整合了新颖性检测(out-of-distribution detection)功能,能准确识别不属于任何已知属(genus)但属于已知科(family)的"中间类型"序列,解决了传统方法如BLAST和MMseqs2无法保证跨分类层级一致性的痛点。
【注意力引导的区域选择】
研究揭示了模型注意力与序列进化特征的有趣关联。通过分析9种分子标记(包括叶绿体基因atpB、matK和核糖体ITS等),发现高关注区域与核苷酸替代率(substitution rate)呈显著正相关(Pearson系数0.82)。例如在matK基因中,模型注意力集中400-600bp区域,该区域同时表现出较高的FST(群体分化指数)和DXY(绝对分歧度)值。这种生物学合理性验证了注意力机制在捕捉进化信号方面的有效性。
【系统发育树更新效率】
在计算效率方面,PhyloTune展现出显著优势。当更新包含677种植物的系统发育树时,传统方法需要20.1小时完成全树重建,而PhyloTune通过局部更新仅需4分钟,效率提升99.67%。即使在高关注区域仅使用1/3序列长度的情况下,构建的子树与全长序列树的RF距离差异仅为0.021-0.054,实现了准确性与效率的平衡。在Bordetella数据集上,该方法同样表现稳定,对clade1复杂分支的拓扑结构重建优于低关注区域方法。
这项研究的创新价值在于首次将预训练语言模型的表征能力与系统发育分析需求相结合,开辟了"AI+进化生物学"的新范式。PhyloTune不仅解决了实际应用中的计算瓶颈,其注意力机制还为分子标记选择提供了新思路——例如研究发现trnL-trnF间隔区和rbcL基因在分类任务中表现突出,这与传统分子系统学的经验相吻合。研究者特别指出,虽然基于深度学习的系统发育推断尚处起步阶段,但DNA语言模型对长程互作(long-range interactions)的建模能力,有望解决现有方法对全局拓扑结构捕捉不足的缺陷。
未来工作可沿三个方向拓展:一是将模型应用于全基因组数据,验证其在跨尺度分析中的稳健性;二是探索无监督聚类策略,增强对新发现进化谱系的识别能力;三是整合多组学数据,构建更全面的"生命之树"。这项研究为处理日益增长的生物大数据提供了创新工具,也为理解DNA序列中功能区域与进化历史的关系提供了新视角。
生物通微信公众号
知名企业招聘