
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双池化因果扩张卷积网络的抗癌肽可解释性识别模型iACP-DPNet
【字体: 大 中 小 】 时间:2025年07月05日 来源:Functional & Integrative Genomics 3.9
编辑推荐:
为解决抗癌肽(ACPs)实验验证成本高、数据集规模小及模型可解释性不足等问题,研究人员开发了iACP-DPNet深度学习模型。该模型通过ProtBert蛋白语言模型编码序列,结合LightGBM和MIC特征选择,采用因果扩张卷积网络与双池化机制(GlobalAveragePooling+注意力池化),显著提升特征提取能力。测试显示其性能优异(Sp96.1%,Sn92.91%,Acc94.5%,MCC89.05%),为抗癌肽发现提供可解释性强的新工具。
抗癌肽(ACPs)因其安全性高、副作用低和靶向性强等特点,在癌症治疗领域展现出巨大潜力。然而传统实验方法存在耗时长、成本高的瓶颈,已鉴定的ACPs数量有限。尽管已有多种计算方法问世,但普遍受限于三大难题:小规模数据集依赖、缺乏可解释特征学习机制、泛化能力不足。
这项研究通过整合文献与数据库资源,构建了更全面多样的数据集,并创新性地提出iACP-DPNet预测模型。该模型采用蛋白质语言模型ProtBert结合位置编码技术,将氨基酸序列转化为特征向量,随后通过LightGBM和最大信息系数(MIC)进行两阶段特征筛选。核心网络采用因果扩张卷积结构,配合独创的双池化机制——全局平均池化(GlobalAveragePooling)与注意力池化层并行运作,既能捕捉局部关键残基特征,又能建模全局序列上下文关联,较传统单池化模型(如ACP?MHCNN)显著提升特征提取效能。
为增强模型透明度,研究团队运用t-SNE降维可视化关键步骤,通过独立残基掩蔽(ISM)技术解析功能区域,并采用SHAP值评估特征重要性。十折交叉验证显示,模型各项指标全面领先:特异性(Sp)达96.1%,灵敏度(Sn)92.91%,准确率(Acc)94.5%,马修斯相关系数(MCC)89.05%。在独立数据集测试中,其泛化性能同样优于现有最优模型。这项研究不仅为抗癌肽发现提供了强大工具,其可解释性框架设计思路对其它生物活性肽研究也具有重要参考价值。
生物通微信公众号
知名企业招聘