
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于预训练DNA语言模型的植物基因组跨物种单核苷酸分辨率建模研究
【字体: 大 中 小 】 时间:2025年06月10日 来源:Proceedings of the National Academy of Sciences 9.4
编辑推荐:
为解决植物基因组跨物种基因注释与适应性预测难题,研究人员开发了PlantCaduceus模型。该DNA语言模型(LM)通过预训练16种被子植物基因组,实现了从拟南芥到玉米(进化分歧160 My)的卓越跨物种迁移能力,在剪接供体位点预测任务中性能超越现有最佳模型1.45倍,在翻译起始位点预测中提升7.23倍。其变异效应预测媲美顶级蛋白质LM,能有效识别拟南芥和玉米的致病突变,为作物育种提供新工具。
在植物基因组学领域,破解不同物种间基因功能与适应性变异的奥秘需要具备迁移能力的模型。科学家们创新性地利用预训练DNA语言模型(LM),通过建模双链DNA序列的进化保守模式,开发出名为PlantCaduceus的突破性工具。这个模型在16种被子植物(angiosperm)基因组上完成预训练后展现出惊人潜力——仅需少量拟南芥(Arabidopsis)标注数据进行微调,就能精准预测玉米(maize)中关键的生物学特征位点,尽管这两个物种已历经1.6亿年(160 My)的进化分歧。
特别值得关注的是,PlantCaduceus在剪接供体位点(splice donor)预测上的表现比现有最佳DNA语言模型高出1.45倍,而在翻译起始位点预测任务中更是实现7.23倍的性能飞跃。当应用于变异效应预测时,其准确度可与最先进的蛋白质语言模型相媲美。模型预测的有害突变展现出比传统多序列比对方法低三倍的次要等位基因频率(MAF),并成功锁定拟南芥和玉米中已知的致病突变位点。
这项研究标志着植物基因组分析方法的重大突破,PlantCaduceus模型通过捕捉跨物种保守的DNA序列模式,为从基础基因组注释到复杂适应性分析的全方位研究提供了强大工具,必将加速作物改良的进程。
生物通微信公众号
知名企业招聘