HyPepTox-Fuse:融合蛋白质语言模型嵌入与传统描述符的可解释混合框架用于精准预测多肽毒性

【字体: 时间:2025年07月25日 来源:Journal of Pharmaceutical Analysis 6.1

编辑推荐:

  研究人员针对多肽治疗剂开发中的毒性预测难题,创新性地提出HyPepTox-Fuse框架,通过融合蛋白质语言模型(PLM)嵌入与传统描述符(CCDs),结合跨模态多头注意力机制和Transformer架构,显著提升了预测性能。该模型在交叉验证和独立测试中均优于现有方法(AUC达0.9624),并开发了开源网络服务器,为多肽药物安全性设计提供了可靠工具。

  

多肽作为短链氨基酸分子,在癌症、糖尿病等疾病治疗中展现出巨大潜力,但其毒性问题严重制约临床转化。传统实验方法耗时昂贵,而现有计算工具如ToxinPred、DeepTox等存在鲁棒性不足、特征单一等缺陷。如何实现高精度、可解释的多肽毒性预测,成为生物医药领域的关键挑战。

韩国成均馆大学(Sungkyunkwan University)的研究团队开发了HyPepTox-Fuse框架,通过整合5种预训练蛋白质语言模型(ESM-1/2、ProtT5/BERT/ALBERT)的嵌入特征与13类优化传统描述符(如CKSAAP、TPC),构建了基于多头注意力和Transformer的混合架构。该研究在包含5,518对毒性/非毒性多肽的数据集上验证,成果发表于《Journal of Pharmaceutical Analysis》。

关键技术包括:1)从iFeatureOmega提取40种传统描述符并通过LightGBM筛选;2)采用5种PLM模型生成序列嵌入;3)设计交叉模态注意力机制融合多源特征;4)基于ToxinPred 3.0和ToxTeller数据集进行严格交叉验证。

3.1 传统描述符性能评估
通过基准测试发现,k间距氨基酸对组成(CKSAAP type 2)表现最佳(AUC 0.9507),而三肽组成(TPC)等13类特征被筛选用于后续融合。

3.2 PLM嵌入特征比较
ProtT5在交叉验证中展现最优性能(AUC 0.9335),显著优于ProtBERT等模型,证实PLM能有效捕捉序列上下文信息。

3.3 混合模型性能验证
融合887维CCDs与PLM嵌入的HyPepTox-Fuse达到峰值性能(独立测试AUC 0.9624),较ToxinPred 3.0提升3.55% MCC值,证明多模态融合的优势。

3.5 模型可解释性分析
注意力热图显示模型能识别"CCSNP"等关键毒性基序,与MEME工具发现的保守序列高度一致,证实其生物学合理性。

该研究通过创新性特征融合策略,首次实现PLM嵌入与传统描述符的优势互补。案例研究显示,HyPepTox-Fuse在ToxTeller数据集上进一步将预测准确率提升至88.5%,显著优于ToxTeller-XGB等现有工具。开发的网络服务器和开源代码(GitHub)为领域内提供了标准化分析平台,其模块化设计还可拓展至RNA修饰预测等场景。未来通过整合非经典氨基酸数据和三维结构信息,有望进一步推动治疗性多肽的理性设计。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号