淀粉样蛋白研究中的杂质警示:自动化模型构建在结构生物学中的关键作用与植物蛋白淀粉样结构新发现
《Protein Science》:Impurities in amyloid studies: The power of automated model building within a cautionary tale for structural biologists
【字体:
大
中
小
】
时间:2025年10月24日
来源:Protein Science 5.2
编辑推荐:
本综述通过冷冻电镜(CryoEM)技术意外发现商业人溶菌酶样品中存在水稻来源的α-淀粉酶/胰蛋白酶抑制剂Type 2(AI172)污染物,并解析出首个植物蛋白淀粉样纤维的2.54??高分辨率结构。研究揭示了蛋白质样品纯度对淀粉样聚集研究的关键影响,探讨了淀粉样折叠与食物过敏原性的潜在关联,并凸显了自动化模型构建工具ModelAngelo在纠正认知偏差中的价值。
1 引言
淀粉样蛋白是一类高度有序、富含β-折叠的蛋白质聚集体,与阿尔茨海默病、帕金森病等神经退行性疾病密切相关。近年来,冷冻电子显微镜(CryoEM)技术的突破使淀粉样纤维的近原子分辨率结构解析成为可能,推动了该领域的发展。然而,淀粉样研究面临一个常被忽视的关键问题:蛋白质样品中杂质对实验结果的潜在影响。
由于生物样品的复杂性,蛋白质纯度难以绝对保证。即使经过严格纯化,样品仍可能含有核酸、降解产物或其他蛋白质污染物。淀粉样聚集过程具有成核依赖性机制,早期阶段的微小环境变化可能通过指数增长阶段被放大,使得该研究尤其容易受到杂质干扰。研究表明,几乎任何蛋白质在适宜条件下都可能形成淀粉样折叠,这进一步增加了杂质干扰的风险。
本研究团队在对商业来源的人溶菌酶进行淀粉样形成研究时,意外发现其主要污染物源自表达宿主Oryza sativa japonica(水稻)的17?kDa α-淀粉酶/胰蛋白酶抑制剂Type 2(AI172)。这一发现不仅揭示了商业蛋白质样品中污染物的多样性,还通过冷冻电镜螺旋重构技术意外解析了首个植物蛋白淀粉样结构。
2 结果与讨论
2.1 人溶菌酶纤维CryoEM数据中未知蛋白的鉴定
研究初期,团队在分析人溶菌酶淀粉样纤维的冷冻电镜数据时,从二维分类中观察到两种不同的蛋白质淀粉样结构。由于样品为商业来源,研究人员最初误认为这是人溶菌酶的两种结构多态性。然而,即使获得了高分辨率的三维重构结果,人溶菌酶序列仍无法手动拟合到密度图中。
这一异常促使团队采用自动化模型构建程序ModelAngelo进行分析。当以人溶菌酶序列作为输入时,ModelAngelo未能生成合理模型;而不提供输入序列运行时,程序则生成了近乎完整的模型。将这些序列通过BLAST搜索Swissprot数据库,明确匹配到水稻来源的AI171和AI172蛋白。尽管两种蛋白在可见的67个残基中具有92.5%的序列同一性,但AI172始终获得更高的匹配分数。
商业人溶菌酶的产品规格表明其确实在水稻中表达,这为污染物来源提供了合理解释。该发现凸显了在中等分辨率下分析蛋白质结构时保持警惕的重要性,以及像ModelAngelo这样的自动化机器学习工具在减轻人为偏差方面的价值。
2.2 水稻AI172蛋白的淀粉样折叠结构
AI172是一个159个残基(不含信号肽为135个残基)的水稻蛋白。冷冻电镜分析显示,其C末端区域(Gln90-Gly155)参与形成淀粉样纤维核心。结构解析发现三个链间盐桥(Arg101/Asp124、Arg110/Glu106和Arg140/Asp137)埋藏在折叠内部,β-链之间的转角通常位于柔性甘氨酸残基位置(Gly102、Gly108等)。
该淀粉样纤维由七个平行β-折叠片段(β1-β7)构成,分别对应Cys91-Arg101(β1)、Val103-Glu106(β2)、Asp109-Ala112(β3)、Met114-His118(β4)、Ala126-Ala129(β5)、Ala134-Tyr138(β6)和Arg140-Tyr146(β7)。值得注意的是,Gly147-Phe148-Phe149片段形成了不寻常的双芳香族 motif。
AI172淀粉样折叠的一个显著特征是单个链穿过交叉β模式的多个层,使得折叠内的链间堆积发生在相距多达四个链的相邻链之间。侧视图显示,单个链沿纤维长度跨越17??,而非典型的4.75??。
2.3 质谱分析验证AI172存在并揭示多种蛋白质杂质
为深入分析样品纯度,研究团队对纤维化的人溶菌酶样品进行了反相高效液相色谱(HPLC)分析。220?nm吸光度信号的峰积分纯度估计与产品规格中“SDS-PAGE纯度高于90%”的报告一致。
通过胰凝乳蛋白酶消化和timsTOF LC-MS/MS分析,使用Mascot软件对SwissProt数据库进行检索。采用至少五个显著独特片段序列的高标准,共鉴定出16种独特蛋白质。除人溶菌酶、胰凝乳蛋白酶和两种人源污染物(白蛋白和角蛋白)外,其余12种蛋白质均源自表达宿主O. sativa。
对未纤维化样品的基质辅助激光解吸/电离质谱(MALDI-MS)分析显示,分子量14,139?Da处存在杂质峰,与具有五个完整二硫键的AI172(完全还原分子量为14,149?Da)吻合良好。尽管AI172可能是最丰富的杂质蛋白,但数据显示其在样品组成中占比显著低于10%。然而,在冷冻电镜分析中,约21%显示明显扭曲的纤维片段属于AI172折叠。
这种微量污染物在冷冻电镜样品中的过度呈现可能源于多种因素:更好的初始溶解度、在给定条件下优先纤维化、更佳的冷冻行为等都可能促使杂质淀粉样的过度呈现。此外,AI172淀粉样纤维的结构异质性较低,不仅导致其在分析中被被动选择,还使其获得了2.54??的更高分辨率,而同一组显微照片中人溶菌酶淀粉样纤维的分辨率为2.80??。
2.4 淀粉样结构在食物过敏原性中潜在作用的推测
AI172属于α-淀粉酶/胰蛋白酶抑制剂家族,已被鉴定为水稻过敏原。这引发了一个重要问题:AI172形成淀粉样纤维的倾向性是否与其过敏原性存在潜在联系。
有假说认为,某些食物过敏原的稳定性可能源于它们形成稳定淀粉样纤维的能力。纤维形式的过敏原可能通过增加IgE抗体的结合亲和力来增强免疫反应。例如,Gad m 1(β-小清蛋白)仅在聚集成淀粉样纤维后才会引起过敏反应。对于其他食物过敏原,如Bos d 5(β-乳球蛋白)、Bos d 10(κ-酪蛋白)等,淀粉样形成已有充分文献记载。
然而,最近对Bos d 5和Gal d 4(溶菌酶)淀粉样纤维的安全性研究表明,其免疫原性水平低于天然单体形式,这可能与水解蛋白通常比完整序列母蛋白具有更低过敏原性有关。研究结果有望鼓励研究人员进一步探讨这种潜在联系及其细微差别。
3 结论
当前生物技术(特别是蛋白质组学和高分辨率质谱技术)的先进状态,使得研究人员没有理由不详细了解其蛋白质样品。应用于纯化蛋白质的传统短语“SDS-PAGE单一条带”是非定量的且已经过时。淀粉样和蛋白质聚集领域存在实验和研究组间可重复性差的问题,包括动力学谱变化以及多态性和多态分布的差异。如果研究人员使用更纯、更相似的蛋白质样品,或许可以避免许多不可重复性。
研究发现AI172容易形成稳定的淀粉样纤维,且它是所有污染物中唯一已知的过敏原。这进一步支持了先前提出的淀粉样形成与过敏反应之间存在联系的假设。由于AI172原则上可以廉价大量生产,它可能成为淀粉样基材料领域的一个有价值的研究系统。
4 方法
4.1 材料
人溶菌酶(Sigma Aldrich L1667)、胰凝乳蛋白酶(Sigma Aldrich C4129)、DTT(D0632)购自Sigma Aldrich。AI172和刚性类型的人溶菌酶纤维通过孵育可溶性人溶菌酶(20?mg/mL溶菌酶,pH?7,经0.45?μm过滤器过滤,100?mM DTT,10?mM NaCl)在85°C下磁力搅拌300?rpm 3小时形成。
4.2 人溶菌酶刚性纤维的胰凝乳蛋白酶消化
将刚性人溶菌酶纤维的代表性样品(40?μL)加入胍(8 M,140?μL)中,室温孵育30分钟。通过278?nm吸光度和人溶菌酶的消光系数38,940/cm·M确定总蛋白浓度。用于蛋白酶消化的变性蛋白溶液在50?mM Tris pH?7.4中含有1.2 M残留胍,稀释至50?μM,与胰凝乳蛋白酶(1?μM)在37°C震荡孵育16小时。
4.3 HPLC分析
变性(但未消化)样品的反相分析在2.6?μm 4.6?×?150?mm Kinetex polar C18柱上进行,使用线性乙腈梯度(35%–55%,含0.1%三氟乙酸),流速1.35?mL/min。通过280?nm和220?nm的消光系数,利用主峰面积定量溶菌酶,并假设所有污染物在220?nm具有与溶菌酶相同的消光系数来估计溶菌酶纯度。
4.4 LC-MS/MS分析
LC-MS/MS在Bruker trapped ion mobility spectrometry-time-of-flight (timsTOF) Pro 1仪器上进行,使用电喷雾电离(ESI)。样品通过 trap 柱脱盐后,使用分离柱(PepSep 25 Series,150?μm,1.5?μm)进行分析。上样2?μL消化的人溶菌酶样品后,以0.30?μL/min的流速应用线性乙腈梯度(2%–35%,含0.1%甲酸)。
4.5 基质辅助激光解吸电离质谱方法
人溶菌酶溶液(30?mg/mL)使用C18 Zip Tips脱盐后,与α-氰基-4-羟基肉桂酸(α-CHCA,2?μL,10?mg/mL)的乙腈/水/三氟乙酸(50:50:0.1)溶液一起点靶。MALDI测量在配备smart beam激光器的ultra fleXtreme MALDI-TOF/TOF质谱仪上进行。参数在flexControl中设置为正线性模式,采集范围600-30,000?Da。
4.6 MASCOT搜索和蛋白质鉴定
使用Mascot Daemon扩展和峰值列表文件(.mgf)作为输入,对SwissProt数据库进行Mascot MS/MS离子搜索。设置分类选项为“All entries”,酶选项选择胰凝乳蛋白酶,允许最多三个漏切位点。以20?ppm的肽和碎片容差搜索单同位素质量值,选择电喷雾电离四极杆飞行时间作为仪器选项。通过要求至少五个显著的独特序列来鉴定蛋白质,对搜索结果进行进一步过滤。
4.7 电子显微镜载网制备和数据收集
使用Cu R2/2300 mesh Quantifoils载网,在25?mA下辉光放电30秒。新辉光放电的载网在Vitrobot Mark IV中使用,腔室设置为100%湿度和15°C。将纤维(4?μL等分试样)施加到载网上,等待5秒后以 blot force 1 blot 5秒,随后 plunge-frozen 到液态乙烷/丙烷混合物中。数据采集在300?kV的Titan Krios上进行,配备Gatan成像滤波器(GIF),使用20?eV能量狭缝和Gatan K3直接电子探测器在计数模式下进行。使用EPU软件收集40帧的 movie,放大倍数130?kx,剂量率约8?e/pix/s,总剂量约63?e/?2。
4.8 图像处理
使用RELION 4.0进行图像处理和螺旋重构,遵循Scheres描述的淀粉样结构程序。使用RELION的运动校正进行漂移和剂量加权校正,使用Ctffind4.1进行对比度传递函数(CTF)估计。使用自动挑选选择单个细丝,以333??的框和33??的框间距离提取片段,并合并4倍至2.6??像素大小用于初始2D分类。从最初的1,836,771个片段中,手动选择667,448个对应于类似扭曲纤维的2D类别的片段。其中,分离出140,376个片段(21%)来自明显不同于人溶菌酶的类别。随后使用relion_helix_inidmod2d生成初始模型,用于后续3D精修步骤。对于最终的3D精修和CTF精修,以0.65??像素大小提取片段。
4.9 模型构建和精修
使用ModelAngelo将模型构建到RELION后处理的密度图中。输出结果在COOT中手动调整,并在ISOLDE中使用对称性和二级结构约束作为九层纤维进行实空间精修进一步调整。为在蛋白质数据库(PDB)中沉积,移除外部的四个层(由于位于模型边缘,其结构通常略有发散)。使用CCP4MG和UCSF Chimera制备图表。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号