综述：基因组学中的标记化与深度学习架构研究综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月29日 来源：Computational Biology and Chemistry 2.6

编辑推荐：

　　这篇综述系统梳理了深度学习（DL）在基因组学中的应用进展，重点探讨了序列标记化（Tokenization）技术与架构（如CNN/RNN/Transformer）的协同演化。文章指出当前k-mer标记和NLP衍生方法（如BPE/SentencePiece）的局限性，强调开发生物相关性更强的自适应标记化方案对提升模型（如DNABERT/ESM）在基因注释、变异预测等任务中的性能至关重要。

基因组学深度学习的技术革命

标记化与架构的共进化

现代DNA测序技术的爆发式发展催生了海量基因组数据，如何利用计算工具挖掘这些数据成为关键挑战。早期研究采用统计模型（如隐马尔可夫模型HMM）和传统机器学习（如随机森林），但依赖人工特征工程且难以捕捉长程依赖。随着深度学习崛起，卷积神经网络（CNN）率先在基序预测（如DeepBind）、染色质特征分析（如DeepSEA）中展现优势，但其局部感受野限制了对基因组全局关联的建模能力。

架构创新突破瓶颈

为突破CNN的局限性，混合架构应运而生：DanQ结合双向长短期记忆网络（biLSTM）捕获基因远程互作，DeepCpG通过CNN-RNN混合模块解析单细胞甲基化状态。而Transformer的引入彻底改变了游戏规则——其自注意力机制可建模百万碱基级的依赖关系。Enformer通过CNN下采样+Transformer的混合设计，将上下文长度扩展至198kb；Borzoi进一步整合U-net架构，实现524kb序列的高分辨率预测。

标记化的生物适配挑战

序列标记化是模型性能的关键决定因素：

固定k-mer法（如DNABERT采用重叠6-mer）易产生词汇爆炸且难以处理罕见变异；
子词算法（如DNABERT-2应用的BPE）通过动态合并高频片段提升效率，但可能割裂生物功能单元；
密码子标记（如GenSLM）在编码区具有天然优势，却无法适配非编码区调控元件分析。

最新趋势显示，基于状态空间模型（SSM）的非注意力架构（如Mamba、Caduceus）通过选择性记忆机制，在单碱基分辨率下实现百万级序列建模，为超长基因组分析提供新范式。

未来方向与生物医学启示

三项突破亟待解决：

上下文自适应标记化：开发强化学习驱动的动态边界划分方法，使标记与功能基序对齐；
多模态整合：构建统一嵌入空间融合表观遗传（如Hi-C）、转录组等数据，破解增强子-启动子互作之谜；
压缩感知技术：利用LZ等算法压缩重复区域，结合分层建模聚焦功能热点。

这些技术进步将推动基因组深度学习从实验性工具转化为临床可解释的诊断系统，为精准医学（如罕见病变异解读、抗癌药物靶点发现）注入新动能。

（注：全文严格依据原文实验数据与结论归纳，未添加非文献支持内容）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号