
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态深度学习的过敏原蛋白预测模型Multimodal-AlgPro的开发与应用研究
【字体: 大 中 小 】 时间:2025年08月02日 来源:BMC Biology 4.5
编辑推荐:
本研究针对现有过敏原预测工具性能不足的问题,开发了整合蛋白质理化性质、氨基酸序列和进化信息的多模态深度学习框架Multimodal-AlgPro。通过系统评估2047种模态组合,发现进化保守特征与序列特征的协同作用可显著提升预测精度(准确率93.9%),并成功鉴定出Bet v 1等关键过敏原表位,为过敏机制解析和表位设计提供了新工具。
过敏反应作为免疫系统的过度应答,已成为影响全球数亿人的重大健康问题。传统诊断方法难以应对日益复杂的过敏原鉴定需求,特别是食品、药品中新型修饰成分的潜在致敏性评估面临巨大挑战。现有计算预测工具受限于单一数据模态和小样本量,存在准确率低(如序列比对方法假阳性率高)、泛化能力差等缺陷,严重制约其临床应用价值。
针对这一难题,贵州教育大学数学与大数据学院的Lezheng Yu团队与西南医科大学等机构合作,在《BMC Biology》发表了创新性研究成果。研究团队开发了名为Multimodal-AlgPro的多模态深度学习框架,通过整合蛋白质序列的卷积神经网络(CNN)特征与11类分子描述符的多层感知器(MLP)特征,构建了包含2047种组合的模型空间。该研究首次系统揭示了进化保守的疏水氨基酸二肽对在过敏原识别中的关键作用,并发现了与Bet v 1过敏原T细胞表位高度吻合的保守基序IPAARLFK。
关键技术方法包括:(1)采用CD-HIT对7100条过敏/非过敏蛋白序列进行去冗余处理;(2)开发基于PSI-BLAST的位置特异性评分矩阵(PSSM)特征提取流程;(3)构建包含CNN序列编码器和MLP特征处理器的多模态融合架构;(4)应用SHAP和UMAP进行模型可解释性分析;(5)采用五折交叉验证评估框架稳定性。
【Deep-learning-based multimodal integration】
研究建立了包含文本模态(CNN)和特征模态(MLP)的三模块架构,通过早期融合策略整合不同数据源。其中CNN采用双卷积层(各250个11×20滤波器)提取序列特征,MLP针对11类蛋白描述符定制网络结构。融合层通过元素乘积捕获跨模态相互作用,最终输出经Sigmoid激活的分类结果。
【Benchmarking unimodal deep learning models】
系统评估14种单模态模型显示:CNN序列模型(MCC=0.800)和PSSM_AC进化特征模型表现最优,而传统氨基酸组成(AAC)和结构特征(CTD)模型区分能力最弱。值得注意的是,针对表格数据的MLP架构在多数描述符上优于CNN,揭示了分子特征的非局部特性。
【Multimodal integration improves prediction】
通过穷举2047种组合发现,整合CNN(One_Hot)与MLP(DFMCA_PSSM等进化特征)的五模态框架达到最优性能(准确率93.1%,MCC 0.863)。进化描述符PSSM400在Top40组合中出现37次,显著优于组成特征,证实进化信息对过敏原预测的关键价值。
【Multimodal interpretability】
UMAP可视化显示CNN和PSSM相关模型能清晰分离过敏/非过敏蛋白。SHAP分析鉴定出7个疏水氨基酸二肽为关键进化特征,并发现与Bet v 1表位(13-24位)匹配的保守基序IPAARLFK。跨模态关联分析揭示前200个氨基酸区域包含决定性预测信息。
【Comparison with state-of-the-art methods】
在1420条独立测试数据上,Multimodal-AlgPro显著优于7种现有工具(准确率93.9% vs PreAlgPro 93.1%),对Bet v 1等主要过敏原的识别灵敏度达91.1%。在1:10不平衡数据集(TE1)中仍保持95.6%准确率,展现强鲁棒性。
该研究通过创新性的多模态融合策略,首次实现过敏原预测准确率突破90%的技术瓶颈。发现的进化保守基序为过敏原表位设计提供了分子靶标,而建立的2047种模态组合评估框架为多模态生物信息学研究树立了新范式。值得注意的是,当前版本尚未整合蛋白质局部几何结构信息,未来引入抗原-抗体对接模拟有望进一步提升预测精度。这项工作不仅为过敏诊断提供了高效计算工具,其开发的多模态可解释性分析方法对蛋白质功能预测领域具有普适指导意义。
生物通微信公众号
知名企业招聘