基于多尺度卷积神经网络与残差连接的创新肽毒性预测模型ToxMSRC

【字体: 时间:2025年08月23日 来源:Bioinformatics 5.4

编辑推荐:

  为解决肽类药物的毒性预测难题,研究人员开发了新型深度学习模型ToxMSRC,整合CBOW词向量、SMOTE过采样、多尺度CNN和BiLSTM技术,在独立测试集上达到92.17%的BACC,显著优于现有方法,为肽类药物安全评估提供高效计算工具。

  

肽类药物因其高靶向性和低副作用成为治疗新宠,但毒性问题犹如悬顶之剑——可能导致细胞损伤、免疫反应甚至器官衰竭。传统实验方法耗时耗力,而现有计算模型存在数据失衡、特征提取不足等缺陷。西安电子科技大学张胜利团队在《Bioinformatics》发表的研究,通过创新融合自然语言处理与深度学习技术,构建了突破性的肽毒性预测体系。

研究团队采用三大核心技术:1)用CBOW模型将氨基酸序列转化为96维向量,以相邻双氨基酸为"单词"捕捉序列特征;2)通过SMOTE技术将1818个阳性样本扩增至3636个,解决数据失衡问题;3)设计含3/5/7多尺度卷积核的CNN联合BiLSTM提取特征,并通过残差连接抑制过拟合。模型训练采用0.0001学习率,早停机制监控验证集性能。

数据特征分析

通过长度分布统计发现,毒性肽序列多集中在25-40个氨基酸区间。热图分析揭示毒性肽中半胱氨酸(C)和甘氨酸(G)出现频率显著高于非毒性肽,尤其在序列前段。

模型性能验证

在基准测试集达到99.20%准确率,独立测试集1和2分别取得94.05%和94.16%的ACC。相比CSM-Toxin等现有模型,BACC提升最高达44.36个百分点。消融实验证实:双氨基酸词向量优于三/四氨基酸组合;SMOTE扩增使阳性样本识别率提升9.68%;残差连接使测试集性能平均提高3.5%。

序列特征解析

采用类ISM突变分析方法发现:当序列首位为甲硫氨酸(M)时模型倾向预测为非毒性;首位甘氨酸(G)或2/3/6/9位半胱氨酸(C)则显著增加毒性预测概率。这与训练数据中这些位点的氨基酸分布频率高度吻合,证实模型有效捕获了序列特征。

该研究通过多技术协同创新,首次实现肽毒性预测准确率突破90%大关。特别是提出的"序列分词→特征扩增→多尺度解析"技术路线,为其他生物序列预测任务提供了范式参考。模型开源部署后,可大幅降低药物研发中毒性评估成本,加速安全肽类药物的开发进程。值得注意的是,当前模型对超短肽(<15AA)的预测性能仍有提升空间,未来结合蛋白质语言模型或可进一步突破局限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号