
-
生物通官微
陪你抓住生命科技
跳动的脉搏
融合预训练蛋白质语言模型与等变图神经网络的肽类毒性预测新方法StrucToxNet
【字体: 大 中 小 】 时间:2025年07月30日 来源:BMC Biology 4.4
编辑推荐:
本研究针对肽类药物开发中的毒性预测难题,创新性地整合预训练蛋白质语言模型(PLM)和等变图神经网络(EGNN),开发出StrucToxNet预测框架。通过结合ProtT5序列嵌入和ESMFold预测的3D结构特征,模型在独立测试集上实现93.18%的平衡准确率(BACC)和0.968的AUC值,显著优于现有序列预测方法,为肽类药物的安全性评估提供了新工具。
在生物医药领域,肽类药物因其高特异性和良好生物相容性成为研究热点,但部分肽类物质的固有毒性严重制约其临床应用。传统毒性检测依赖耗时费力的生物实验,而现有计算方法如ToxinPred系列仅利用序列信息,忽略了决定生物活性的关键三维结构特征。这种技术局限导致预测准确性难以突破,亟需开发整合多维信息的创新算法。
电子科技大学长三角研究院(衢州)的研究团队在《BMC Biology》发表的研究中,开创性地将预训练蛋白质语言模型与几何深度学习相结合,构建了StrucToxNet预测系统。该系统通过ESMFold快速预测肽段三维结构,采用ProtT5-XL-U50模型提取序列特征,并创新性地引入E(3)等变图神经网络处理空间坐标信息,最终在独立测试集上实现93.18%的平衡准确率,较现有最佳方法提升1.6%,为肽类药物的安全筛选树立了新标杆。
关键技术包括:(1)使用ESMFold预测肽段3D结构并提取45维结构特征;(2)采用ProtT5生成1024维序列嵌入;(3)构建基于Cα原子的空间接触图(8?阈值);(4)设计三层EGNN网络进行对称性保持的特征学习;(5)引入对比学习策略处理数据不平衡问题。实验数据来自公开的CAPTP数据集,包含1818个毒性肽和4569个非毒性肽。
【Comparative performance with existing methods】
测试结果表明,StrucToxNet在BACC(93.18%)、AUC(0.968)和MCC(0.852)等关键指标上全面超越5种现有方法。特别是特异性(SP)达94.79%,较次优模型CAPTP提升2.2%,证明结构信息的引入显著改善了模型判别能力。

【Peptide length range analysis】
长度分析揭示,深度学习模型对短肽(<20aa)的毒性识别优势明显,传统方法在此区间的误判率高达25%。而StrucToxNet在所有长度区间(5-50aa)均保持稳定性能,验证了其广泛适用性。

【Effect of the quality of predicted structure】
pLDDT(预测局部距离差异测试)分析显示,当过滤低质量结构(pLDDT<60)后,模型性能进一步提升至94.98%BACC和0.977AUC,证实结构预测精度与模型性能正相关。这为未来整合实验结构数据指明了优化方向。
这项研究开创性地证明了三维结构信息对肽类毒性预测的重要价值。通过巧妙融合PLM的序列理解能力和EGNN的几何学习优势,StrucToxNet实现了超越现有方法的预测性能。其创新点在于:(1)首次系统验证结构特征对毒性预测的增益效应;(2)建立端到端的几何深度学习框架;(3)开发适用于不平衡数据集的训练策略。尽管目前依赖预测结构存在局限,但该方法为肽类药物安全评估提供了新范式,未来可通过整合多构象采样和修饰残基处理进一步拓展应用场景。该成果不仅推动计算毒理学发展,也为AI驱动的药物设计提供了重要方法论参考。
生物通微信公众号
知名企业招聘