基于注意力机制CNN-RNN融合模型CREATE实现转座子高效分层分类
《Briefings in Bioinformatics》:CREATE: a novel attention-based framework for efficient classification of transposable elements
【字体:
大
中
小
】
时间:2025年11月17日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对转座子(TE)分类中传统方法依赖先验知识、计算成本高且难以捕捉多尺度特征的问题,开发了新型深度学习框架CREATE。该框架通过卷积神经网络(CNN)和带有注意力机制的门控循环单元(GRU)分别提取全局k-mer分布和局部末端序列特征,并采用分层分类策略。实验表明CREATE在多个数据集上优于现有方法,特别是在DNA转座子分类和未知TE注释方面表现突出,为基因组注释研究提供了强大工具。
在基因组研究领域,转座子(Transposable Elements,TEs)作为能够改变自身位置的DNA序列,构成了真核生物基因组的相当大部分,对人类基因组占比约45%,玉米基因组中更是高达近63%。这些"跳跃基因"在基因调控和基因组进化中扮演着关键角色,然而其固有的结构多态性和序列长度可变性使得准确分类一直面临挑战。
传统的转座子分类方法主要分为三类:基于特征的方法搜索特定结构特征如靶位点重复(TSDs);基于相似性的方法通过BLAST或HMMER等工具比对已知元件;以及机器学习方法如TEclass和RFSB。然而,这些方法往往难以平衡计算效率与分类准确性,特别是对于缺乏明确结构特征或与已知元件差异较大的转座子。
近年来,深度学习模型为转座子分类带来了新的希望。DeepTE利用卷积神经网络在分类学每个父节点训练分类器;TERL将一维序列转换为二维独热编码矩阵;Inpactor2专注于LTR反转录转座子的精细分类。尽管这些方法取得了显著进展,但大多数仍未能有效捕捉转座子的多尺度特征,导致性能不尽如人意。
针对这些挑战,西北工业大学计算机学院的研究团队在《Briefings in Bioinformatics》上发表了题为"CREATE: a novel attention-based framework for efficient classification of transposable elements"的研究论文,提出了一个创新的注意力机制框架,通过整合全局模式分布和局部序列特征,实现了转座子的高效分类。
研究团队从八个广泛使用的重复数据库中系统收集了189,168条转座子序列,构建了六个不同的数据集进行综合评估。CREATE框架采用双路径特征提取策略:一方面通过改进的Horner规则高效计算k-mer频率作为全局特征,另一方面从序列两端提取局部结构特征并进行独热编码。框架核心采用混合CNN-GRU架构,其中CNN模块包含三个卷积块(64、128、256个核),GRU模块采用两层网络结构(128和64个单元),通过注意力机制自适应融合两类特征。针对转座子的层次结构,研究在每个父节点训练独立分类器,并采用自上而下的分层分类策略,通过概率阈值控制分类深度。
通过五折交叉验证确定了CREATE的最优参数配置。研究发现7-mer在大多数模型中表现最佳,尽管更大的k-mer尺寸会导致特征更稀疏。对于RNN模块,600 bp的序列长度在捕获足够信息和保持合理训练时间之间达到了最佳平衡。双端(BE)策略在所有模型中一致优于仅使用左端(LE)或右端(RE)的方法,证实了从两端提取特征的有效性。在RNN变体比较中,GRU在性能和效率之间提供了最佳平衡。
在九个父节点的基准测试中,CREATE的Matthews相关系数(MCC) consistently大于0.850,显著优于TERL、Inpactor2和DeepTE等现有方法。具体而言,CREATE比TERL提高0.044-0.172,比Inpactor2提高0.005-0.157,比DeepTE提高0.008-0.123。单模块变体CREATE-CNN和CREATE-RNN的对比实验显示,CNN模块在大多数模型中表现良好,而RNN模块在TE、ClassII和TIR模型(对应DNA转座子路径)中表现出特殊优势,这表明局部末端特征对DNA转座子分类尤为重要。
在Repbase新版本数据集的测试中,CREATE展现出良好的泛化能力,在八个模型中的七个优于对比方法。对于活性TIR转座子的分类任务,相似性方法(RepeatClassifier和TEsorter)凭借高质量的蛋白质数据库表现最佳,而CREATE在机器学习方法中准确预测了63个序列,表现最优。值得注意的是,CREATE-RNN正确预测了51个序列,凸显了RNN模块在捕获末端结构特征方面的优势。
在包含不同层次标签的数据集上,CREATE的分层分类性能显著优于其他方法。通过概率阈值(0.50-0.95)调节分类深度,CREATE在分层F值(hF)上始终领先,展现出对阈值变化的鲁棒性。与相似性方法相比,CREATE在三个测试数据集上的hF分别提高0.045、0.020和0.049,证实了其在端到端TE注释中的优势。
通过SHAP分析发现,CNN模块中多聚A(AAAAAAA)等7-mer特征对LINE元件分类有重要贡献,这与L1反转录转座子中富含A的3'端特征一致。RNN模块分析显示,CACTA元件的末端基序(5'-CACTA...TAGTG-3')和SINE2/tRNA元件的T-rich信号对分类具有显著贡献。注意力权重可视化表明,ClassII元件比ClassI具有更高的RNN权重,特别是在Helitron和TIR超家族中,RNN特征占主导地位,这与DNA转座子依赖末端结构特征的理论一致。
在三分类任务(CDS、TR和TE)中,CREATE的所有指标均超过0.995,平均达到0.997,优于其他深度学习方法,证实了其在区分转座子与非转座子方面的有效性。
CREATE框架的创新之处在于成功整合了转座子分类所需的全局模式分布和局部结构信息。通过CNN模块学习k-mer频率特征,GRU模块处理末端序列特征,以及注意力机制的自适应融合,CREATE实现了对转座子多尺度特征的全面建模。分层分类策略则有效解决了类别不平衡问题,支持端到端的TE注释。
研究结果表明,CREATE在各项评估指标上均优于现有方法,特别是在DNA转座子分类和未知TE注释方面表现突出。其注意力机制不仅提升了分类性能,还提供了特征贡献的可解释性洞察,有助于理解不同转座子类别的判别特征。
尽管CREATE表现出色,研究团队也指出了其局限性:分层结构增加了新数据集的计算复杂度,高层分类错误可能向下传播,且对于具有保守结构域但序列差异大的TE类型,仍不如基于相似性的方法。未来工作将致力于开发更集成的TE分类框架,结合互补方法提升对 motif 保守家族的识别能力。
CREATE作为新型注意力机制混合CNN-RNN框架,为转座子分类提供了强大工具,其开源代码和演示数据已公开,有望集成到TE识别流程中,推动基因组注释研究的发展。该研究不仅提出了有效的技术解决方案,也为理解转座子的特征表示和分类机制提供了新的视角。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号