
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多阶段知识蒸馏的MSKDNP模型:实现高效、低资源且可解释的神经肽预测新突破
【字体: 大 中 小 】 时间:2025年09月13日 来源:Briefings in Bioinformatics 7.7
编辑推荐:
为解决神经肽识别中计算资源消耗高、处理速度慢及模型部署困难等问题,研究人员开发了基于多阶段知识蒸馏框架的MSKDNP模型。该模型仅用1.2%参数即达到与全参数微调蛋白语言模型相当的性能,实现了SOTA识别效果,并具备优异可解释性。研究还提供了首个集成PLM的神经肽预测Web服务器,显著降低了使用门槛,对生物医学研究具有重要意义。
在神经科学和生物医学研究领域,神经肽(neuropeptide)作为神经系统中重要的信号分子,参与调节多种生理过程,并与神经退行性疾病、神经精神疾病的发病机制密切相关。准确识别神经肽不仅有助于理解其调控机制,还为相关疾病的治疗策略提供新思路。然而,实验验证成本高昂,促使研究者开发人工智能方法进行快速识别。尽管现有方法如NeuroPred-PLM等基于蛋白语言模型(Protein Language Model, PLM)提升了分类性能,但仍面临高内存需求、高计算成本、推理速度慢以及缺乏用户友好Web服务器等问题,限制了实际应用。
为解决这些挑战,本研究提出MSKDNP(Multi-Stage Knowledge Distillation for Neuropeptide Prediction),一种基于多阶段知识蒸馏的神经肽预测模型。该框架通过特征级和伪标签知识蒸馏,使学生模型仅用1.2%参数即可达到与全参数微调教师模型相当的分类精度,并在神经肽识别中实现最先进性能。同时,模型具备优异可解释性,其注意力机制能够识别与生物功能相关的关键序列区域。此外,研究还开发了首个公开Web服务器,极大提升了模型的可及性。该成果发表于《Briefings in Bioinformatics》,为神经肽研究提供了高效、低资源且可解释的计算工具。
研究采用的关键技术方法包括:基于NeuroPep 2.0数据库构建基准数据集,使用CD-HIT去除冗余序列后获得4463个神经肽和相同数量的非神经肽,分别按常规随机分割(Setmain)和基于Levenshtein距离的聚类分割(Setextra)划分训练测试集;采用ESM2 650M作为教师模型进行全参数微调(FPFT),ESM2 8M作为学生模型,通过多阶段知识蒸馏(包括特征知识蒸馏和伪标签知识蒸馏)实现知识迁移;使用t-SNE可视化特征分布,MEME进行模体分析,并结合实验结构数据(如PDB:7VGX、8WZ2)和AlphaFold3预测模型验证注意力机制生物学意义;最后基于轻量化学生模型开发Web服务器,支持序列输入和特征下载。
研究结果如下:
基准性能比较
在Setmain和Setextra数据集上,MSKDNP学生模型均达到最佳性能(ACC=0.938/0.903,MCC=0.876/0.806),显著优于PredNeuroP、NeuroPred-FRL、NeuroPred-Fuse和NeuroPred-PLM等现有方法,证明其卓越的分类能力和泛化性。
可视化与蒸馏效果
t-SNE可视化显示,多阶段蒸馏后学生模型特征分布与教师模型高度一致,类间分离明显,而仅使用伪标签或特征蒸馏时仍存在重叠,证实多阶段策略的有效性。
消融分析
去除教师模型全参数微调(Teacher_wo_FPFT)导致性能大幅下降(ACC下降约10%),表明FPFT对任务适应性至关重要;学生模型中,同时使用特征和伪标签蒸馏性能最优,单一蒸馏均次之,无蒸馏时性能最低,验证了多阶段蒸馏的必要性。
效率分析
学生模型仅8M参数,为NeuroPred-PLM的9.8%,教师模型的1.2%;在GPU和CPU上推理速度分别提升20倍和117倍,彰显其低资源和高效率优势,为Web部署奠定基础。
可解释性分析
注意力热点区域(8-15个相邻残基)与MEME发现的保守模体(如"HSDGTFTSDY")高度吻合,这些模体多与G蛋白偶联受体(GPCR)结合或分泌蛋白功能相关;结构验证显示,注意力最大值与神经肽-受体复合物(如NPY-Y1R、26RFa-QRFPR、OXT-OTR)的界面残基一致,证实模型捕获了生物学功能关键位点。
负样本案例研究
对长序列非神经肽和含正片段合成序列的预测中,模型均保持高准确率(96%-100%),表现出强鲁棒性。
Web界面
开发了用户友好Web服务器(https://awi.cuhk.edu.cn/~biosequence/MSKDNP/index.php),支持在线预测和特征下载,首次实现PLM集成且无需本地部署。
研究结论表明,MSKDNP通过多阶段知识蒸馏框架,实现了高效、低资源且可解释的神经肽分类,学生模型以极低参数量匹配教师模型性能,注意力机制揭示了功能相关序列模式,Web服务器提升了可及性。该工作为神经肽生物医学研究提供了准确、快速、易用的计算工具,有望促进相关疾病机制探索和治疗策略开发。
生物通微信公众号
知名企业招聘