PCVR:基于预训练视觉Transformer的DNA序列分类新方法——全局上下文表征提升物种鉴定精度

【字体: 时间:2025年05月10日 来源:BMC Bioinformatics 2.9

编辑推荐:

  针对传统DNA序列分类方法存在局部信息局限性和计算效率低的问题,中国科学技术大学团队开发了PCVR模型。该研究首次将视觉Transformer(ViT)与掩码自编码器(MAE)预训练结合,通过频率混沌游戏表示(FCGR)将DNA序列转化为图像,捕获长程依赖关系。实验表明PCVR在超界和门级分类准确率分别提升5.93%和8.96%,尤其对远缘物种数据集表现出卓越泛化能力,为宏基因组分析和新物种发现提供新工具。

  

在生物多样性研究和临床诊断中,DNA序列分类是解码生命密码的关键技术。然而传统方法面临两大困境:基于比对的工具如BLAST依赖参考数据库质量,计算效率低下;机器学习方法如k-mer计数则难以捕捉长序列的全局模式。更棘手的是,随着高通量测序技术爆发式增长,海量未分类序列在宏基因组组装过程中丢失,现有方法对未知物种的识别率不足40%。

中国科学技术大学的研究团队突破性提出PCVR框架,将DNA序列分类问题转化为图像识别任务。该研究创新性地采用频率混沌游戏表示(FCGR)将任意长度DNA序列编码为固定尺寸图像,保留k-mer频率分布和空间结构信息。通过视觉Transformer(ViT)的自注意力机制捕获序列全局上下文特征,并结合掩码自编码器(MAE)预训练策略解决标注数据稀缺问题。论文发表于《BMC Bioinformatics》,实验证明PCVR在超界和门级分类准确率最高达99.22%和96.93%,对远缘物种的识别准确率提升近9%。

关键技术包括:1) 5-mer FCGR将DNA序列转化为64×64分辨率图像;2) 24层ViT-Large模型(1024维嵌入)构建特征提取器;3) 75%掩码率的MAE预训练策略;4) 分层微调结构融合超界、门、属三级分类信息。使用8块NVIDIA 3090 GPU在250万条未标注序列上预训练520轮次。

研究结果显示:在包含146个属的远缘数据集上,PCVR的宏平均精度(macro AveP)达96.00%(超界)和78.67%(门),显著优于MMseqs2等传统工具。特征检索实验证实,预训练后的ViT编码器无需微调即可实现80.53%的门级分类准确率,表明FCGR能有效保留物种特异性模式。消融研究揭示:5-mer FCGR较4-mer提升6.33%准确率;MAE预训练使模型收敛速度提升3倍;2:3:5的层级损失权重最优。

案例研究揭示分类依据:十字形FCGR模式链霉菌(Streptophyta)的预测准确率达98%,而平面纹样的变形菌门(Proteobacteria)易与浮霉菌门(Planctomycetes)混淆(错误率12%)。这表明PCVR依赖视觉特征判别,对保守序列区域识别效果更佳。

结论部分指出,PCVR首次实现DNA序列的上下文感知表征,其优势体现在三方面:1) FCGR突破序列长度限制,ViT捕获的全局特征使新物种发现准确率提升8.96%;2) MAE预训练减少90%标注数据需求;3) 分层微调结构解决类不平衡问题。局限性在于属级分类受数据分布影响(准确率74.65%),未来可通过集成k-mer特征改进。该研究为基因组功能元件(如启动子、增强子)预测提供了新范式,相关代码已在GitHub开源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号