METFAN:通过适配器网络实现多源增强治疗性肽功能预测
《ACS Omega》:METFAN: Multisource Enhanced Therapeutic Peptide Function Prediction via Adapter Network
【字体:
大
中
小
】
时间:2025年11月03日
来源:ACS Omega 4.3
编辑推荐:
多功能治疗肽(MTPs)因多标签特性和类别不平衡挑战,传统预测方法存在局限性。本文提出METFAN模型,整合TextCNN提取的本地序列特征(如2-5核卷积)与ESM2、ProtT5的预训练全局语义嵌入,通过特征优化模块(非线性变换、残差连接、通道注意力)适配下游任务,并采用多源特征聚合网络(FAN)迭代优化融合特征。实验表明,METFAN在测试集上达到样本级精度0.623和标签级F1值0.522,优于所有对比方法,尤其在低频类别(如QSP)中表现突出,验证了多源特征融合与优化策略的有效性。
在现代医学研究中,治疗性肽(Therapeutic Peptides, TPs)因其独特的生物活性和潜在的治疗价值,逐渐成为精准医疗和靶向治疗的重要方向。治疗性肽由短链氨基酸组成,能够参与免疫调节、抗感染反应、激素信号传递以及细胞凋亡等关键的生物学过程。相比传统的小分子药物和基于蛋白质的生物药物,治疗性肽在合成可得性、组织渗透性和药代动力学方面表现出色,同时保留了大分子药物的靶向性、生物相容性和可调生物活性等优势。此外,它们的低毒性、高靶向选择性和化学可修饰性,使其在癌症、传染病和神经疾病等临床领域得到广泛应用。
然而,治疗性肽的多功能性特征也带来了显著的挑战。许多治疗性肽具有多标签特性,即能够执行多种生物学功能,这使得准确的计算预测变得复杂。传统的预测方法通常依赖手工构建的特征工程,导致效率低下且对序列语义的理解有限。此外,这些方法在多标签分类任务中表现不佳,无法有效捕捉标签间的依赖关系,模型功能共现,且难以处理标签不平衡问题。这限制了它们在实际生物学场景中对多功能肽的适用性。
为了解决上述问题,本文提出了一种名为“多源增强治疗性肽功能预测通过适配器网络”(Multisource Enhanced Therapeutic Peptide Function Prediction via Adapter Network,简称 METFAN)的深度学习模型。该模型通过整合多源特征表示和定制化的优化与聚合策略,为治疗性肽的预测提供了一个新颖而有效的框架。具体而言,METFAN结合了由多尺度 TextCNN 捕捉的局部序列特征和由两个预训练的蛋白质语言模型 ESM2 和 ProtT5 提取的全局语义嵌入。由于 ESM2 和 ProtT5 的原始嵌入在大多数功能类别中表现不佳,我们设计了一个特征优化模块来改进这些嵌入,从而增强其敏感性和判别能力,同时保持某些类别中的鲁棒性。此外,一个特征聚合网络有效整合了异构特征,吸收了互补的优势,并减少了冗余。
实验结果表明,METFAN 在样本级准确率和标签级 F1 分数方面均优于当前最先进的方法,分别达到了 0.623 和 0.522。此外,METFAN 在严重的标签不平衡条件下展现出更强的鲁棒性和泛化能力。整体而言,METFAN 为治疗性肽预测提供了一个全新的框架,并为肽功能筛选和机制研究奠定了坚实的基础。研究数据和代码已公开发布于 GitHub 平台(https://github.com/szlstart/METFAN)。
### 治疗性肽的功能多样性与预测挑战
治疗性肽的功能多样性是其研究与应用的一大特点。由于它们能够影响多个生物学过程,因此在设计多靶点药物和治疗复杂疾病方面具有巨大潜力。然而,这种多样性也带来了预测上的挑战。首先,治疗性肽的功能分类通常存在标签不平衡问题,即某些功能类别中的样本数量远多于其他类别。这导致传统的机器学习模型在预测这些稀有类别时表现不佳,因为它们倾向于学习多数类的特征,而忽视了少数类的细微差别。其次,治疗性肽的多功能性使得标签之间的依赖关系复杂,这要求预测模型不仅能够识别单一功能,还需处理多标签间的相互作用。传统的二分类模型无法满足这一需求,而多标签分类模型在处理这些复杂依赖关系时也面临一定的困难。
此外,治疗性肽的序列长度较短,通常少于 50 个氨基酸,这使得其在序列结构上缺乏长距离依赖的特征,进一步增加了功能预测的难度。为了应对这些挑战,研究者们提出了多种方法,包括基于特征工程的传统机器学习模型和基于深度学习的模型。其中,基于深度学习的模型通过端到端学习,能够更有效地捕捉序列中的复杂模式。然而,现有模型在处理多标签和不平衡数据时仍存在一定的局限性。
### 多源特征表示与特征优化模块
为了提升治疗性肽功能预测的性能,METFAN 采用了多源特征表示策略。具体而言,该模型结合了三种不同的特征提取方法:TextCNN、ESM2 和 ProtT5。TextCNN 通过多尺度卷积核提取局部结构特征,能够有效捕捉短肽序列中的功能模体、疏水区域和保守残基组合等信息。ESM2 和 ProtT5 则是基于 Transformer 架构的预训练蛋白质语言模型,能够提供丰富的全局语义嵌入。然而,这些预训练模型的嵌入在多数功能类别中表现不佳,可能包含任务无关或冗余的信息,从而影响预测性能或导致过拟合。
为了解决这一问题,METFAN 引入了一个特征优化模块。该模块通过非线性变换、残差增强和通道注意力机制,对原始嵌入进行优化,以提升其与下游分类任务的对齐度。优化后的嵌入不仅能够减少冗余,还能增强任务相关的判别能力。这一优化过程显著提升了 ESM2 和 ProtT5 的性能,使得它们在多标签分类任务中表现更优。
### 特征聚合网络的作用
在特征提取和优化阶段,METFAN 将 TextCNN 提取的局部特征与优化后的 ESM2 和 ProtT5 全局嵌入进行融合。为了有效整合异构特征,减少冗余,并增强跨源交互,研究者设计了一个特征聚合网络(Feature Aggregation Network, FAN)。FAN 通过迭代的残差前馈变换和归一化操作,逐步重新加权不同特征源的互补信息,同时削弱冗余信号。这一过程使得最终的聚合特征更具信息性和鲁棒性,从而提升模型在下游预测任务中的表现。
通过对比实验,FAN 在多个功能类别中展现出显著的优势。例如,在处理高样本类别(如 AMP、TXP、ABP 等)时,FAN 能够提升模型的预测能力;而在处理低样本类别(如 QSP)时,FAN 也能显著改善模型的性能。这些结果表明,FAN 在整合不同特征源时具有良好的适应性和泛化能力,能够有效提升模型的整体性能。
### 多标签分类与标签不平衡的处理
在多标签分类任务中,标签之间的依赖关系和分布不平衡是两个主要挑战。传统的二分类方法无法处理多标签任务,而多标签分类模型在处理标签不平衡时也面临困难。为了应对这些挑战,METFAN 引入了一种多标签 Focal Dice Loss(MLFDL)作为损失函数。MLFDL 结合了 Focal Loss 和 Dice Loss 的优势,能够有效处理难以分类的样本和类别不平衡问题。通过对比实验,MLFDL 在多个功能类别中均表现出色,使得 METFAN 在样本级准确率和标签级 F1 分数方面均优于其他方法。
此外,METFAN 还通过实验验证了其在极端标签不平衡情况下的鲁棒性。例如,在处理少数类别的预测任务时,模型能够保持较高的准确率和 F1 分数,这表明其在处理不平衡数据方面具有较强的能力。这种能力对于治疗性肽的功能预测尤为重要,因为某些功能类别可能在实际应用中更为罕见。
### 与现有方法的对比分析
为了验证 METFAN 的整体有效性,研究者将其与多个现有方法进行了对比分析。这些方法包括传统的二分类模型(如 PEPred-Suite、PPTPP 和 TPpred-ATMV)以及基于深度学习的多标签分类模型(如 PrMFTP、iMFP-LG、ETFC、PSCFA、TPpred-LE 和 TPpred-SC)。实验结果表明,METFAN 在所有功能类别和评估指标中均优于这些方法。例如,在样本级准确率和标签级 F1 分数方面,METFAN 分别达到了 0.623 和 0.522,显著高于其他模型的性能。
在处理多功能肽时,METFAN 的表现尤为突出。通过案例研究,METFAN 能够准确识别具有多个功能标签的肽,例如在五功能肽的预测中,METFAN 的准确率达到 100%,而其他模型则未能达到这一水平。这表明,METFAN 在处理复杂多标签任务时具有较强的适应性和泛化能力。
### 临床意义与未来展望
准确识别多功能治疗性肽对于药物开发具有重要意义。多功能肽能够同时作用于多个靶点,从而在设计多靶点药物和治疗复杂疾病(如癌症和免疫性疾病)方面具有优势。例如,多功能抗菌肽不仅具有直接的抗菌作用,还能调节宿主免疫反应,这使其在免疫治疗和感染控制中具有应用潜力。同样,多功能抗肿瘤肽能够在抑制肿瘤生长的同时增强免疫激活,从而提供协同治疗效果。
尽管 METFAN 在治疗性肽预测中表现出色,但仍存在一些局限性。首先,当前的基准数据集存在标签不平衡问题,且高多功能肽的数量有限,这可能限制了模型在稀有类别中的泛化能力。其次,研究主要依赖于序列衍生的特征,未来的工作可以探索结合结构先验、图表示或知识引导的约束,以进一步提升模型的可解释性和泛化能力。这些改进方向将有助于增强 METFAN 的适用性,并扩展其在不同生物活性肽类别中的应用。
总之,METFAN 提供了一个新颖且有效的深度学习框架,能够处理治疗性肽预测中的多标签性和标签不平衡问题。其在多个功能类别中的表现验证了其在实际应用中的潜力,同时也为未来的改进提供了方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号