基于多头自注意力机制融合多特征的深度学习模型DeepMM-Kcr精准预测赖氨酸巴豆酰化位点及其生物学意义

【字体: 时间:2025年05月30日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对赖氨酸巴豆酰化(Kcr)位点识别精度不足的问题,开发了融合自然语言处理特征(NLP)与手工特征(HF)的深度学习模型DeepMM-Kcr。通过多头自注意力机制整合Transformer编码的单词嵌入(WE)和双向长短期记忆网络(BiLSTM)编码的手工特征,结合卷积神经网络(CNN)与双向门控循环单元(BiGRU),在独立测试集上达到85.56%的准确率,较现有最佳模型提升0.4%。该成果为解析Kcr在基因调控和疾病发生中的机制提供了高效计算工具。

  

在生命活动的精密调控网络中,蛋白质翻译后修饰(PTM)如同分子世界的"密码锁",而赖氨酸巴豆酰化(Kcr)正是近年来破译的关键密码之一。这种在组蛋白和非组蛋白上广泛存在的修饰,不仅参与基因转录激活和染色质结构维持,更与癌症、HIV潜伏等疾病过程密切相关。然而,传统质谱检测方法耗时耗力,现有计算模型如Deep-Kcr、BERT-Kcr等虽取得进展,但面临特征融合不充分、预测精度受限等挑战。

西安工程大学的研究团队在《Scientific Reports》发表的研究中,创新性地构建了DeepMM-Kcr深度学习框架。该研究采用HeLa细胞来源的14,311个Kcr位点数据集,通过CD-HIT去冗余后构建平衡数据集。技术路线上,首先利用Transformer编码器提取单词嵌入(WE)特征,结合手工特征(HF)包括独热编码(One-hot)、氨基酸指数(AAindex)和位置加权氨基酸组成(PWAA);随后通过8头自注意力机制(MHA)融合多特征;最终集成CNN、BiGRU和多层感知机(MLP)实现分类预测。

特征提取与融合
研究团队创新性地采用自然语言处理技术,将31个氨基酸的肽段视为"句子",通过Token嵌入和正弦余弦位置嵌入(PE)构建128维词向量,经Transformer编码器捕获全局上下文。同时提取的531维手工特征通过BiLSTM编码时序信息。实验证明,WE+Transformer特征贡献度最高(基准集ACC 78.51%),而8头自注意力融合使预测性能全面提升。

模型架构优化
深度对比实验显示,Attention-CNN-BiGRU结构表现最优,其中CNN层(64个3×1卷积核)提取局部模式,BiGRU层(隐藏层64维)捕捉长程依赖,配合0.2的Dropout率有效防止过拟合。该结构在基准集五折交叉验证中平均ACC达82.03±0.62%,显著优于单一模块组合(如No-attention-CNN仅79.73%)。

性能验证
在包含2989个正负样本的独立测试集上,DeepMM-Kcr的ACC、Sn、Sp分别达到85.56%、87.59%和83.54%,MCC值0.7119,AUC高达0.9310。与现有7种工具对比显示,其ACC较最优模型Adapt-Kcr提升0.4%,且Sn/Sp更均衡。t-SNE可视化证实,经过CNN-BiGRU处理后的特征空间能清晰区分Kcr与非Kcr样本。

这项研究的意义在于三方面突破:首先,首次实现NLP特征与手工特征的动态权重融合,8头自注意力机制可解释性地学习不同特征重要性;其次,CNN-BiGRU协同架构兼顾局部物化特性和全局序列上下文;最后,开源模型为表观遗传研究提供新范式。局限性在于对非组蛋白Kcr的特异性识别仍有提升空间,未来可结合冷冻电镜等结构生物学数据增强特征维度。

作为"代谢-表观遗传"调控网络的关键节点,Kcr位点的精准预测不仅助力癌症靶点发现,更为开发位点特异性基因编辑工具奠定基础。该研究展示的深度学习框架,也为其他PTM位点预测提供了可迁移的技术路线。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号