
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于AlphaFold2计算筛选细丝蛋白机械敏感性结合蛋白的创新策略与机制研究
【字体: 大 中 小 】 时间:2025年09月23日 来源:Biochemistry and Cell Biology 2.1
编辑推荐:
本综述系统阐述了利用AlphaFold2人工智能模型对果蝇细丝蛋白(Filamin/Cheerio)机械敏感区域(MSR)展开构象特异性结合蛋白的高通量筛选工作。研究通过建立接触预测对齐误差(CPAE)评估体系,成功鉴定出132个高亲和力靶点(如整合素β胞内段、Nuak激酶、Hts蛋白等),并证实这些靶点通过反平行β片层(antiparallel β-sheet)机制特异性结合开放构象的Ig17/19结构域。该工作为机械信号传导(mechanosignaling)研究提供了创新计算生物学范式,对揭示细胞骨架重塑与力敏感蛋白网络调控机制具有重要价值。
细丝蛋白作为二聚化肌动蛋白结合蛋白,在机械信号传导中起关键作用。其机械敏感区域(MSR)在自然状态下折叠为球状闭合构象,而在机械应力下展开为开放构象,暴露多个蛋白结合位点。本研究采用AlphaFold2模型筛选特异性识别细丝蛋白开放构象的结合蛋白,以黑腹果蝇细丝蛋白Cheerio为研究对象,通过偏倚筛选鉴定出132个高亲和力靶点。所有鉴定蛋白均特异性结合MSR开放构象而非闭合构象。值得注意的是,这些蛋白的结合区域缺乏明显序列相似性。尽管存在部分假阳性,但可通过结合界面二级结构特征进行有效过滤。本研究为机械信号传导中细丝蛋白相互作用的鉴定提供了框架。
细丝蛋白家族是大型细胞骨架蛋白,通过感知肌动蛋白细胞骨架的拉伸参与细胞结构组织。典型细丝蛋白包含N端肌动蛋白结合结构域、介导蛋白相互作用的免疫球蛋白(Ig)结构域组成的中央杆区以及C端二聚化结构域。果蝇细丝蛋白的Ig14-19结构域(对应脊椎动物Ig16-21)构成机械敏感区域(MSR),采用球状组织结构实现力感应功能。在静息状态,MSR采用闭合构象掩蔽Ig17和Ig19上的结合位点。当细丝蛋白受肌动蛋白细胞骨架变化拉伸时,MSR展开暴露特异性蛋白结合位点。最后一个Ig结构域构成二聚化结构域。识别展开MSR的信号蛋白向肌动蛋白网络提供反馈以适应变化。果蝇单一典型细丝蛋白Cheerio(Cher)具有与典型细丝蛋白相同的结构和功能。
MSR区域的Ig结构域由七个β链(A–G)组成免疫球蛋白样β夹心结构。果蝇Ig17和Ig19(对应脊椎动物Ig19和Ig21)在C-D β链面具有配体结合位点。配体结合时会在C β链旁形成额外反平行β链。配体残基贡献β链并通过氢键结合,特异性由与Ig β链C和D间沟槽的侧链相互作用决定。配体残基通过侧链与沟槽形成氢键和疏水相互作用。Ig结构域结合 motif是典型β链形成序列,具有指向蛋白内部的交替疏水残基。静息状态下,MSR处于闭合形式,Ig16阻断Ig17的C β链,Ig18阻断Ig19的C β链。闭合构象阻断其他肽段结合。在拉力作用下,阻断结构域的β链释放暴露Ig17和Ig19的C β链结合位点。β链暴露发生在2-5 pN力下,细丝蛋白Ig结构域在小于35 pN拉力下稳定。
细丝蛋白作为广泛表达的蛋白参与多个过程,因此与许多蛋白结合。传统上使用酵母双杂交筛选、共免疫沉淀测定和表面等离子体共振等生化物理方法鉴定细丝蛋白配体。但这些方法耗时且因细丝蛋白大分子量而具挑战性。人工智能和机器学习的进展催生了深度学习蛋白折叠模型如AlphaFold2,可高精度预测蛋白复合物结构。多人细丝蛋白Ig结构域单独或与结合伴侣复合的结构已被解析并纳入AlphaFold2训练数据,这使得大规模结构筛选新配体成为可能。本研究(1)评估使用AlphaFold2鉴定果蝇细丝蛋白Ig17和Ig19结合区域;(2)评估其特异性识别MSR开放构象的能力;(3)进行偏倚生物信息学筛选鉴定新型机械相关细丝蛋白结合伴侣。
使用ColabFold v1.5.5(AlphaFold2实现)进行AlphaFold2模型构建,采用AlphaFold2-multimer-v2模型,未使用模板结构。初始筛选为每对序列生成单个模型,后续模型为每对序列生成3或5个模型并进行3次循环迭代。从UniProt数据库条目Q9VEN1获取预制的AlphaFold2模型。单个结构域在ChimeraX中裁剪。通过esmatlas网站上的ESM宏基因组图集进行ESMfold模型构建。生成模型所用氨基酸序列见支持信息。使用UCSF ChimeraX v1.9中的matchmaker命令计算生成模型与参考结构(Filamin-A Ig样结构域18-19 pdb:2K7Q和Ig结构域19-21 pdb:2J3S)的均方根距离(RMSD)。
从Flybase获取氨基酸序列。使用最长剪接变体,登录号为Cher-PG FBpp0288453、Mys-PD FBpp0309123、Nuak-PD FBpp0293890、Hts-PA FBpp0301112和Kelch-PB FBpp0080596。偏倚筛选中,从BioGrid数据库选择细胞骨架蛋白、肌原纤维蛋白、激酶、蛋白降解相关蛋白和细丝蛋白结合蛋白。然后使用Flybase获取最长剪接变体序列。所选蛋白完整列表见支持信息。使用Cher-PG的Ig19结构域作为诱饵。猎物蛋白被修剪为200个氨基酸的非重叠片段,并通过“:”与Ig19序列连接置于fasta文件中。
预测对齐误差(PAE)量化AlphaFold2对预测结构中两个残基相对定位的置信度。使用ColabFold v1.5.5获取PAE图。ColabFold结果包括PDB文件和包含残基配对PAE矩阵的JSON文件。使用R库bio3d打开PDB文件并列出两个子结构(Ig19和猎物蛋白)间所有接触位点,截止距离5 ?。然后使用R库jsonlite提取接触位点的PAE值。接触PAE(CPAE)值是接触位点PAE值的平均值。通过ChimeraX v1.9带状显示生成结构快照,放大结合位点,统计反平行、平行和随机关联的数量。使用R独立包进行绘图和统计检验。
初步评估两种深度学习方法预测细丝蛋白Ig结构域及其配体结构的表现。使用结合MMseqs2快速同源性搜索与AlphaFold2-Multimer的ColabFold–AlphaFold2和速度更快但精度较低的ESMfold。重点预测果蝇典型细丝蛋白(Cheerio或Cher)Ig16-17和18-19结构域的结构。比较基于若能准确预测这些结构域对的折叠构象,则表明具有预测新配体的潜力。成功捕获这些结构域的闭合折叠状态意味着能够发现未知结合伴侣。参考结构使用Filamin-A Ig结构域18-19和19-21的晶体结构(对应果蝇细丝蛋白16-17和18-19)。
分析Ig16-17结构时,ESMfold成功预测了两个各含七个β片的Ig样结构域,但未能预测Ig16中阻断Ig17结合位点的β链。同样,预测Ig18-19对结构时,ESMfold准确预测了单个Ig样结构域但未捕获其相互作用,反而预测了α螺旋,与已发表脊椎动物细丝蛋白结构不一致。预测局部距离差异测试(pLDDT)显示α螺旋区域置信度最低,Ig样结构域内置信度最高。总体ESMfold无法预测细丝蛋白结构域对的闭合状态,因此不太可能识别机械结合伴侣。
相反,ColabFold–AlphaFold2成功预测了来自Ig16或Ig18的β链与Ig17或Ig19相应面的相互作用。两个Ig结构域界面的pDLLT值较高。域间界面的氢键也被正确预测。作为对照,使用InterPro数据库对应Filamin-PA剪接变体(Q9VEN1;Cher-PA)的InterPro–Alphafold2模型。与ColabFold–AlphaFold2结果类似,InterPro模型正确预测了两个结构域对的闭合状态且pLDDT值较高。进一步评估模型,将其与FLNA Ig18-19(对应果蝇Ig16-17)和FLNA Ig20-21(对应果蝇Ig18-19)晶体结构比较。计算单个Ig结构域与参考结构的RMSD。所有模型中Ig16和Ig18的RMSD值始终高于Ig17和Ig19,可能因Ig16和Ig18中存在延伸阻断链。比较预测方法,ESMFold产生Ig16(9.7 ?)和Ig18(8.4 ?)最高RMSD值,而ColabFold–AlphaFold2 Ig16(3.24 ?)和Ig18(7.86 ?)及InterPro–Alphafold2 Ig16(2.84 ?)和Ig18(7.93 ?)较低。Ig17和Ig19的RMSD值所有模型相对相似,可能因缺乏延伸阻断链。总体ColabFold–AlphaFold2和InterPro–Alphafold2正确预测了两个结构域对的闭合状态。ColabFold–AlphaFold2模型具有最低RMSD值,因此将分析限制于ColabFold-AlphaFold2。
测试能否使用果蝇蛋白识别细丝蛋白在整合素上的结合位点。脊椎动物中,Filamin-A的Ig21(对应果蝇细丝蛋白Ig19)直接结合整合素胞质尾部的单个结合区域。整合素是具小胞质尾部的跨膜受体。细丝蛋白不能结合整合素胞外或跨膜部分,为预测提供阴性对照。预计果蝇中的相互作用与脊椎动物类似。
将Myospheroid(Mys,果蝇整合素二聚体β亚基)完整序列分为200个氨基酸部分,制作与Cher Ig19结合的ColabFold–AlphaFold2模型。总体预测得到低PAE值支持,所有情况下两个结构直接接触。胞质结合区域被识别为反平行β链界面。注意到Ig19与整合素胞外部分模型的界面PAE值较高,表明预测接触错误。相反,正确识别的结合区域具有非常低PAE值的局部条纹。因此假设仅提取两个结构接触位点的PAE值可将反平行β链形成的真实结合区域与错误区分。定义接触位点为彼此接近5 ?的残基,使用R中Bio3D包识别它们。然后提取这些接触位点的PAE值,称为CPAE值。整合素与Ig19模型的CPAE值在正确预测的胞质位点显著低于胞外部分。因此CPAE允许从ColabFold–AlphaFold2模型中识别正确预测的结合区域。
测试细丝蛋白Ig结构域识别整合素胞质尾部的特异性。使用Cher MSR的Ig结构域(Ig14-19,对应人细丝蛋白Ig16-21)。制作每个Ig结构域与Mys胞质尾部组合的五个模型。Ig15、17、18和19总是预测为反平行β链,其余从未预测为反平行β链。计算模型的CPAE值。作为阳性对照,制作人Filamin-A Ig21与人整合素beta7胞质尾部的ColabFold–AlphaFold2模型(晶体结构可用2BRQ和2JF1)。注意到当模拟反平行结合区域时模型CPAE值非常低(<10),而未模拟时较高(>10)。Ig15、17和19具有最低CPAE值。Ig18被模拟与整合素尾部形成反平行β链但CPAE值较高。由于Ig18是阻断结构域,不太可能结合整合素尾部。
研究三个充分支持的细丝蛋白互作因子(结合区域未知)的关联:Kelch、Nuak和hu-li tai shao(Hts)。从Kelch-PB剪接变体获取序列并分为200个氨基酸区域。通过将这些区域与Cher所有22个Ig结构域组合进行结构预测。大多数预测CPAE值高于10,七个预测CPAE值低于10。其中六个表现出预期的反平行β链与β链接触。具体在Kelch中鉴定三个潜在结合区域:结合区域1(ASSFFSCLH)与Ig17相互作用,结合区域2(AVGGAVA)与Ig15、17和19相互作用,结合区域3(VGHIRLNA)与Ig8相互作用。所有鉴定结合区域位于C端区域,已知介导蛋白降解的底物结合。
研究Nuak与Cher的相互作用。Nuak是参与肌肉自噬调控的丝氨酸/苏氨酸激酶。再次将Nuak的200个氨基酸部分与单个Cher Ig结构域配对。基于CPAE评分评估相互作用。从这些评估中鉴定八个相互作用,序列FSTEMQHPV作为Nuak中的推定结合区域。Cher Ig15、17和19在这些相互作用中具有最低CPAE评分。另外两个含残基KKLSI和LSI的β链形成位点也被恢复,但太短不构成真实结合区域。Nuak主要是无序蛋白,除N端小激酶结构域(残基71-321在Nuak-PG)外。预测结合区域对应残基843-851,位于无序区域。
最后研究Cher与Hts的相互作用。Hts是肌动蛋白结合蛋白,在卵子发生期间形成的允许营养物和细胞器转移的细胞质桥——环管处与Cher相互作用。使用最长Hts剪接变体Hts-PA。将Hts的200个氨基酸部分与单个Cher Ig结构域配对。恢复10个CPAE值低于10的模型,所有在界面与Cher结构域形成β链。其中六个模型识别Hts中相同结合区域对应残基835-842 FISEKHIQ,且五个具有最低CPAE值。另外两个结合区域TYSYVA和VIEIQ具有略高CPAE值。在环管处,Hts被切割为更小形式称为Hts-RC(代表环管)。RC形式通过692位蛋白水解切割产生,对应切割的C端部分。因此相互作用必须发生在残基692和1156之间。具有最低CPAE值的结合区域FISEKHIQ落入Hts-RC形式。位点VIEIQ位于残基639-642,紧邻Hts-RC起始之前,因此可能代表假阳性。结合区域TYSYVA对应残基1082至1087,也对应RC形式。
确立AlphaFold2可准确识别已知细丝蛋白结合蛋白的结合区域后,决定使用它揭示新型细丝蛋白结合蛋白。为减少计算负载,将搜索限制于Ig19。由于对细丝蛋白在肌原纤维的机械信号传导功能感兴趣,将筛选候选限制为肌原纤维组分、细胞骨架蛋白、基于BioGRID项目列为可能细丝蛋白互作因子、激酶和蛋白降解相关蛋白。获得约1000个蛋白列表。从FlyBase下载氨基酸序列并拆分为200个氨基酸的非重叠区域,与Ig19配对。总共生成5247个模型对应946个蛋白。从中获取CPAE值并相应排序;132个CPAE值低于5,对应84个蛋白;834个模型CPAE值低于10,对应365个蛋白。已知相互作用如Kelch、Sls、Hts、Nuak和Mys被恢复,证实了方法。鉴定候选片段与Ig19间三种相互作用类型。第一种是Ig19与另一蛋白氨基酸延伸间形成的反平行β片层。第二种是平行β片层。第三种涉及两个结构无定义模式的随机并列。
观察到92% CPAE < 5模型对应反平行β片层,该百分比随CPAE值增加急剧下降。相反,平行β片层数量随CPAE值增加相对未变,表明平行β片层可能是伪影。最后,两个结构随机并列的模型主导高CPAE模型但几乎不存在于低CPAE模型,暗示这些结构不代表真实相互作用。
大多数模型显示38-45位接触,对应Ig19已确立的结合位点。CPAE < 5模型中98%在正确位点有接触。该百分比对CPAE值达15的模型保持稳定,但对更高CPAE值模型下降。测试猎物蛋白残基位置的偏倚,未预期首选位置。数据集中未观察到强烈富集区域,表明模型无强烈位置偏倚。使用多序列比对工具寻找CPAE < 5模型中的保守残基。但未识别清晰 motif 或模式。最后检查鉴定结合区域的可及性。选择85个顶级预测命中(InterPro数据库中有AlphaFold2模型可用),分析预测结合区域在这些模型内的结构背景以评估无序区域是否过度代表。85个模型中,72个结合区域位于本质无序区域且推测可及;6个在β片层中,7个在α螺旋中。因此大多数预测结合区域发现于可能可及的无序区域。
Ig17和Ig19在结构和功能上非常相似。因此询问针对Ig19的筛选是否会富集Ig19配体而非Ig17结合剂。测试此,为Ig19筛选CPAE值小于5的132个候选生成新模型,使用Ig17或Ig19作为靶标。对于Ig19,模型显示一致低平均CPAE值,证明筛选方法的可重复性,尽管少数模型呈现较高CPAE值。类似地,对于Ig17,模型具有比筛选随机模型更低的CPAE值。这表明筛选Ig19间接选择Ig17结合剂。总体所有模型平均CPAE值对Ig19低于Ig17。接下来检查与每个Ig结构域的特定相互作用。模型分为三组:CPAE值无变化、Ig19中CPAE值较高和Ig19中CPAE值较低。大多数模型显示Ig结构域间CPAE无变化,表明它们识别两个结构域。132个模型中,34个在Ig19中具有较低CPAE值,其中12个CPAE值低于5,表明特异性识别Ig19。例如鉴定线性泛素E3连接酶(LUBEL)蛋白中Ig19识别但非Ig17的结合区域。另外发现Nuak中两个Ig结构域均识别的结合区域。相反,仅两个模型在Ig17中具有较低CPAE值,仅一个CPAE值低于5。仔细检查模型揭示 sterile20样激酶(Slik)与Ig结构域间不常见相互作用,以两个β链而非典型单链为特征。
最后询问顶级结合区域是否特异性识别开放MSR构象。测试此,使用CPAE < 5模型的结合区域创建新模型,现与代表开放构象的Ig17或Ig19组合,并与通常以闭合构象模拟的Ig16–Ig17和Ig18–Ig19组合。总体所有新模型的CPAE在包含单独Ig17或Ig19的模型中显著低于包含阻断Ig结构域(即Ig16–Ig17和Ig18–Ig19)的模型。类似地,模拟反平行β链作为相互作用的模型百分比在使用单独Ig17或Ig19时占多数,但在使用Ig16–Ig17时非常低,使用Ig18–Ig19时几乎不存在。作为示例,选择一个在Slik蛋白中与Ig17和Ig19形成反平行β链的配体。它与Ig17或Ig19具有低CPAE值但与Ig16–Ig17或Ig18–Ig19具有高值。Slik中的残基VTTAIEVAI结合Ig19于Ig18阻断链所处位置。但当与Ig18–Ig19一起模拟时,Ig18的阻断链阻止VTTAIEVAI残基与Ig19间的相互作用。总体结合区域置信地识别Ig17或Ig19的开放构象,但不置信地识别闭合构象。
本研究评估了使用AlphaFold2方法鉴定与果蝇细丝蛋白机械诱导结合位点之一Ig19结合蛋白的方法,使用ColabFold笔记本。以下证据支持该方法:(1)AlphaFold2可准确预测整合素胞质尾部在正确结合区域的结合事件。(2)AlphaFold2鉴定了Nuak、Hts和Kelch的结合区域——三个已知与细丝蛋白相互作用但缺乏清晰识别结合区域的蛋白。所有案例中均识别出高置信区域,与先前遗传和生化实验吻合良好。(3)Ig19配体的偏倚筛选主要揭示与Ig19形成反平行β链的结构,这是细丝蛋白Ig结构域识别靶标的标准机制。(4)鉴定配体不识别闭合构象。预测细丝蛋白结合区域的无偏方法揭示了对靶蛋白本质无序区域的偏好。
低CPAE值和反平行β链界面是潜在结合相互作用的强指标。已充分证实Ig17或Ig19与其配体间的界面形成反平行β链界面。大多数恢复的低CPAE模型具有反平行β链界面,但部分没有。那些具有不同界面的可能代表假阳性。对此方法充满信心,因为β链是蛋白-蛋白界面的非常常见 motif 且在AlphaFold2训练数据中充分代表。筛选方法的一个限制是使用200个氨基酸的非重叠区域。虽然此策略为最小化计算时间实施,但承担错过可能跨越两个独立200个氨基酸片段的潜在结合区域的风险。
细丝蛋白是多靶点支架蛋白,其部分配体对细丝蛋白MSR状态敏感。体内方法已用于鉴定与果蝇细丝蛋白复合的蛋白。但由于细丝蛋白配体具有组织依赖性,这些方法无法识别实验进行组织之外的配体。虽然体外方法如酵母双杂交筛选原则上可测试生物体中所有蛋白,但它们遭受高假阳性率困扰。这些方法的另一限制是无法解析特定结合位点。相反,AlphaFold2筛选可提供更高分辨率的蛋白-蛋白相互作用见解。当与组织特异性基因表达数据库结合时,可选择仅那些感兴趣组织中表达的蛋白,显著降低筛选计算成本。幸运的是,果蝇有许多组织或单细胞水平的RNA-seq数据库可用。
Alphafold2允许快速筛选细丝蛋白配体,尤其是结合果蝇细丝蛋白Ig17和Ig19掩蔽结合位点的那些。
研究由NSERC(RGPIN/02984-2022和DGECR/00166-2022)、加拿大创新基金会和新斯科舍研究(CFI 43947 2023-2795)资助NGM。
生物通微信公众号
知名企业招聘