ClathPLM:结合CNN和注意力机制的深度多视图特征提取技术,显著提升了clathrin蛋白的识别效率
《Journal of Molecular Graphics and Modelling》:ClathPLM: Deep Multi-View Feature Extraction with CNN and Attention Enhances Clathrin Protein Identification
【字体:
大
中
小
】
时间:2026年01月23日
来源:Journal of Molecular Graphics and Modelling 3
编辑推荐:
ClathPLM通过整合ProtT5、ProtBert和ESM-3的嵌入特征,结合CNN与多头注意力机制进行多视图深度表征学习,显著提升Clathrin蛋白预测性能,验证了跨模态特征融合的有效性。
宋书欣|苏宇森|郭庆阳|刘泰刚
上海海洋大学信息技术学院,中国上海201306
摘要
Clathrin是细胞内囊泡运输中的关键结构蛋白,主要通过三聚体组装介导clathrin介导的内吞作用(CME)。其功能异常与多种疾病密切相关,包括神经退行性疾病、肿瘤转移和免疫系统失调。传统的识别Clathrin存在的实验方法存在成本高和耗时长的局限性。因此,开发高效可靠的计算方法来辅助Clathrin的识别显得尤为紧迫。在这项研究中,我们提出了一个名为ClathPLM的模型,该模型整合了来自三种预训练蛋白质语言模型(PPLMs)的序列嵌入,即ProtT5、ProtBert和ESM-3,并通过由卷积神经网络(CNN)和多头注意力(MHA)机制组成的独立分支对每个特征进行深度表示学习,最终融合三种视角的表示来完成分类任务。为了验证该设计的有效性,我们进一步检验了融合策略和注意力机制的变体。评估结果表明,ClathPLM在整体分类性能和鲁棒性方面表现出色,超越了当前的最先进方法。此外,该模型在额外的案例研究数据集上表现优异,并且在额外的囊泡运输蛋白(VTPs)数据集上也显示出良好的可扩展性。我们预期ClathPLM有助于更深入地理解Clathrin在细胞调节和疾病机制中的作用,并促进未来的生物学研究以及潜在的临床应用。
引言
Clathrin是一种高度保守的三聚体蛋白,其基本结构由三条重链和三条轻链组成,形成一个笼状的三螺旋结构[1],[2]。这种独特的三聚体构象使Clathrin能够在细胞膜上自我组装,形成覆盖膜受体和货物的囊泡,从而介导clathrin介导的内吞作用(CME)以及膜蛋白和其他分子的细胞内定向运输[3],[4]。CME不仅确保了营养物质、受体和信号分子的选择性摄取,还参与了细胞信号转导、膜动态和突触囊泡回收等关键过程的调节[5],[6]。因此,Clathrin的功能异常与多种疾病密切相关,包括神经退行性疾病(如阿尔茨海默病和帕金森病)[7],[8]、2型糖尿病[9]和肿瘤相关疾病[10],[11]。总体而言,Clathrin在维持细胞膜运输和信号调节的稳态中起着关键作用,其功能异常与多种重大疾病的发生和发展密切相关,突显了其在基础生物学研究和疾病机制分析中的重要地位。
传统的识别Clathrin的生物技术主要依赖于部分氨基酸序列[12]、Tom1-Tollip复合物[13]、琼脂糖凝胶电泳[13]和基于不同分子的蛋白水解[14]。尽管这些方法可以有效识别Clathrin,但它们通常耗时、劳动密集且成本高昂。此外,实验结果容易受到操作条件的影响,导致可重复性不足。另外,传统方法难以在全基因组规模或大规模蛋白质序列水平上快速筛选潜在的Clathrin蛋白。这些局限性凸显了迫切需要高效的计算方法来补充传统技术。
最近的研究表明,先进的人工智能(AI)算法在多样化的模式识别和预测任务中表现出色。成功应用范围从医学图像分析用于疾病诊断[15],[16]和生物特征识别[17]到复杂疾病相关化合物的识别[18]。此外,数据驱动策略在工程参数预测[19],[20]中也显示出显著的效果。这些方法利用了元启发式优化[15],[16]、集成学习[19],[20]和创新的特征重建或迁移学习策略[21],[22]等技术,为生物序列分析奠定了坚实的方法论基础。
基于这些进展,将此类计算策略专门应用于Clathrin的识别不仅可以快速筛选潜在的Clathrin家族成员,还可以降低实验成本,并为后续的功能验证提供可靠的候选分子[23],[24]。例如,Kanh Le等人[25]将位置特异性评分矩阵(PSSM)转换为二维图像,并将其输入卷积神经网络(CNN)进行特征学习和分类。随后,Zhang等人[26]提出了DeepCLA模型,该模型引入了基于氨基酸理化性质的编码方法(EBGW)来生成特征向量。此外,CL-Pred模型[27]首先通过整合二肽偏离预期平均值(DDE)、基于PSSM的双词组(BiPSSM)和位置特异性评分矩阵-四切片离散余弦变换(PSSM-TS-DCT)提取了高效的特征组合,然后基于轻量级极端梯度提升(LiXGB)构建了一个集成框架,以准确预测Clathrin。
尽管上述计算方法在Clathrin预测中取得了良好的性能,但它们有两个主要局限性。首先,依赖于手工制作的特征通常难以完全捕捉蛋白质序列的复杂生物学信息。其次,多序列比对(MSA)技术被用来生成基于PSSM的特征描述符,这在一定程度上限制了它们的泛化能力和应用效率[28]。为了解决这些问题,预训练蛋白质语言模型(PPLMs)[29]的发展提供了一种有效的方法,可以直接从大量未标记的蛋白质序列中学习高维嵌入,并捕捉氨基酸序列的复杂上下文依赖性,从而为下游预测任务提供更全面和高效的特征表示[30]。TargetCLP模型[31]结合了手工制作的特征和进化尺度建模(ESM)嵌入来提取序列特征,并采用了自归一化的BiLSTM(SnBiLSTM)进行Clathrin预测。此外,Shoombuatong等人[32]通过长短期记忆(LSTM)网络实现了高效的Clathrin预测。然而,在没有手工制作特征的情况下,多个PPLM嵌入特征的深度整合尚未得到充分探索。因此,通过设计特定的深度网络架构仍有进一步改进的空间。
在这项研究中,我们开发了ClathPLM,它整合了ProtT5[33]、ProtBert[33]和ESM-3[34]的嵌入特征,以提供更丰富的上下文语义信息。同时,采用了CNN和多头注意力(MHA)架构从多个层次和多个角度深入挖掘序列特征[34],[35]。这种设计不仅可以有效捕捉序列特征中的局部保守模式,还可以揭示这些高阶特征之间的全局依赖性[36],从而提高Clathrin预测的性能和鲁棒性。实验结果表明,与仅使用单一嵌入或简单特征融合策略的模型相比,ClathPLM在Clathrin预测任务中表现出显著更高的准确性和稳定性,进一步验证了多视图表示学习在捕捉序列信息方面的有效性。
数据收集和预处理
为了确保公平和可比的性能评估,我们采用了Le等人[25]构建的基准数据集。使用“clathrin”作为关键词从UniProt[37]中检索Clathrin蛋白,而具有相似功能和结构的囊泡运输蛋白(VTPs)作为负样本(非Clathrin)。数据集被分为一个基准训练集(称为CLA-TRN1.0),其中包含1288个Clathrin蛋白和1133个非Clathrin蛋白,以及一个独立的测试集(称为
关于ClathPLM的消融研究
为了评估不同PPLM嵌入和关键模型组件对ClathPLM性能的贡献,我们在训练数据集(CLA-TRN1.0)上进行了5折交叉验证,进行了特征和模型消融实验。
在特征消融模块中,我们评估了ProtT5、ProtBert、ESM-3及其组合特征对Clathrin预测性能的影响。具体包括三种类型的变体:(i)仅使用单一PPLM特征的模型,即
结论
在这项研究中,我们介绍了ClathPLM,这是一个深度多视图表示学习框架,旨在改进Clathrin蛋白的识别。该模型整合了三种PPLM嵌入,即ProtT5、ProtBert和ESM-3,并通过独立的CNN和MHA子网络处理每个嵌入。这种设计能够提取短距离保守模式和长距离上下文依赖性。然后结合来自这三个子网络的表示
CRediT作者贡献声明
刘泰刚:撰写 – 审稿与编辑,监督,资金获取。郭庆阳:可视化,验证。苏宇森:可视化,验证。宋书欣:撰写 – 原始草稿,可视化,方法论,调查,形式分析,概念化
利益冲突
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
伦理批准
本手稿不需要伦理声明,因为它不涉及人类参与者或动物实验。
资助
本研究由中国国家自然科学基金(项目编号11601324)资助。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号