
-
生物通官微
陪你抓住生命科技
跳动的脉搏
先进人工智能在蛋白质折叠预测中的严重偏差:案例研究
【字体: 大 中 小 】 时间:2025年02月11日 来源:Scientific Reports 3.8
编辑推荐:
这一研究成果意义重大,为蛋白质结构预测领域提供了新的思考方向,尤其是针对人工智能(AI)在蛋白质折叠预测方面存在的问题,该研究进行了深入探讨,有助于科研人员进一步理解 AI 预测与实验结构之间的差异,对后续改进蛋白质结构预测算法、推动生物医学发展有着重要的理论和实践价值。
在蛋白质结构研究领域,西班牙纳瓦拉生物医学蛋白质晶体学与结构免疫学单位、纳瓦拉公立大学(UPNA)以及纳瓦拉大学医院的研究人员 Jacinto López-Sagaseta 和 Alejandro Urdiciain 取得了一项重要研究成果。他们的研究论文《Severe deviation in protein fold prediction by advanced AI: a case study》发表于《Scientific Reports》期刊。这一研究成果意义重大,为蛋白质结构预测领域提供了新的思考方向,尤其是针对人工智能(AI)在蛋白质折叠预测方面存在的问题,该研究进行了深入探讨,有助于科研人员进一步理解 AI 预测与实验结构之间的差异,对后续改进蛋白质结构预测算法、推动生物医学发展有着重要的理论和实践价值。
随着人工智能和深度学习技术的飞速发展,蛋白质结构预测领域迎来了重大变革。AlphaFold 凭借其仅依据氨基酸序列就能高精度模拟蛋白质折叠结构的能力,在该领域脱颖而出,为结构生物学研究带来了革命性的影响。它使得快速且前所未有的准确预测蛋白质结构成为可能,极大地推动了相关研究的进展。
然而,尽管 AlphaFold 取得了显著成就,蛋白质结构测定中仍存在诸多无法通过计算程序解决的局限性和挑战。实验结构测定在蛋白质研究中依旧占据着关键地位。在实际研究中,AI 预测结果与实验测定的蛋白质结构之间可能存在差异,这一现象影响着科研人员对蛋白质真实结构和功能的理解,也限制了基于蛋白质结构的药物设计、生物分子相互作用研究等应用的发展。因此,深入探究 AI 预测与实验结构之间的差异及其原因,对于提升蛋白质结构预测的准确性、完善蛋白质结构研究体系至关重要。
研究人员选取海洋海绵受体中名为 SAML(Sponge Adhesion Molecule, long form)的蛋白进行研究。该蛋白的胞外区域片段包含两个串联的 Ig 样结构域。研究人员通过 PCR 技术将其克隆到 pAcGP67A 载体中,并在 N - 末端融合 TwinStrep 标签,用于后续蛋白质纯化。使用 Sf9 昆虫细胞生产重组杆状病毒,经过一系列处理后得到用于实验的蛋白质样品。
以一定密度的 Sf9 细胞,利用 Xpress 培养基和扩增的病毒原液,按照 1:2000 的比例进行感染,在 28°C 恒温振荡培养 72 小时。收集细胞上清液,通过 StrepTactin 4Flow cartridge 进行纯化,再用 6xHis 标记的 3C 蛋白酶消化,经尺寸排阻色谱法进一步提纯,最终将样品浓缩至 6.5mg/ml,用于结晶研究。
运用 ColabFold v1.5.5 对 SAML 进行多构象预测,设置回收步骤为 12,选择 mmseqs2_uniref_2 作为 MSA 模式,MSA 深度最大为 16:32,种子数设为 16。同时,采用基于 MSA 聚类和序列相似性的 AF - cluster 方法进行预测。
SAML 蛋白在 0.2M 硫酸铵、30% w/v PEG4000 的条件下结晶,用含 20%(v/v)甘油的结晶培养基进行低温保护。在 ALBA 同步加速器的 BL13 - XALOC 光束线进行衍射分析,使用 autoPROC 处理数据,AIMLESS 进行合并和缩放,根据 CC1/2 和 l/sigma 值将分辨率截断设定为 1.6?。利用 Phaser 通过分子置换法,以 AlphaFold 预测的单个 Ig 结构域为模板确定 SAML 的分子结构,再用 phenix.refine 和 refmac5 进行结构精修,并在 Coot 中手动构建模型。
研究人员对比了 SAML 蛋白的 AlphaFold 预测模型(AF - Q9U965 - F1)与实验测定结构(分辨率 1.6?),通过蛋白质 - 蛋白质比对和 C - alpha 原子叠加发现,两者之间存在显著差异,均方根偏差(RMSD)达到 7.735?。进一步通过 N - 或 C - 末端 Ig 结构域进行结构比对时,发现预测模型中自由 Ig 结构域相对于对齐的 Ig 结构域的取向存在强烈偏差,显示出明显的结构不匹配。
AlphaFold 计算的预测对齐误差(PAE)图表明,SAML 蛋白的 N - 末端和 C - 末端结构域的预期误差为 0 - 10?,显示出相对适度的位置不确定性。然而,实际结构比较却揭示了这些结构域相对取向的显著差异。这种差异可能是由于 N - 末端和 C - 末端结构域之间的柔性接头允许多种构象,导致预测和实验结构中结构域相对位置的变化;输入数据中进化同源物或结构域间相互作用不足,使得计算模型中结构域排列错误;实验结构受结晶条件影响而稳定在特定构象,而预测模型未考虑这些因素。
研究人员定制搜索替代折叠,结合低 MSA 深度、不同随机种子和多个回收步骤,但所有预测模型均无法复制实验结构,尤其是在整体折叠和结构域间对齐方面存在偏差。预测结果始终表现出构象偏差,倾向于与 X 射线衍生结构不一致的结构域间折叠。同时,预测的 pLDDT 分数波动且相对较低,表明对结构预测的信心为中等水平;PAE 值显示对每个结构域相对取向的预测信心较差。这种偏差可能是因为 AlphaFold 算法和输入数据存在局限性,如序列覆盖不均匀,许多区域覆盖低或无覆盖,序列同一性持续较低,限制了其准确预测替代结构域间构象的能力;AlphaFold 在采样多样构象方面存在固有局限性,难以捕捉多结构域蛋白的动态相互作用,特别是当实验结构代表受外部因素稳定的特定构象时。
基于 MSA 聚类和序列相似性的替代折叠预测方法得到的模型置信度从中等到较低,最高预测模板建模(pTM)分数为 0.69,表明整体拓扑结构的准确性为中等水平。结构比对显示,预测和实验结构中 C - 末端结构域的相对取向存在明显倾斜,而 PAE 图却显示对结构域间取向的信心相对较高。这表明这种实验和预测结构之间的不一致似乎是系统性的,可能是由于输入 MSA 中结构域间接触信息不足或 SAML 本身的固有灵活性导致的。
在更局部的层面上,差异主要出现在环区域,这导致了属于 Ig 样 β 三明治刚性核心的一些 β 链的位置和取向的额外偏差。此外,在二级结构类型的判定上也存在差异。例如,根据蛋白质二级结构词典(DSSP),C - 末端 Ig 结构域的 Aβ 链在 X 射线结构中从 Leu274 延伸到 Leu283,而 AI 模型仅将 Ile275 到 Asp279 的部分视为 β 链基序。还有一个置信度较高的区域(90 > pLDDT > 70),其二级结构分配在模型预测和 X 射线结构之间也不匹配。
本研究通过对海洋海绵受体蛋白 SAML 的深入研究,揭示了先进 AI 在蛋白质折叠预测中存在严重偏差的现象。在 SAML 蛋白的研究中,AI 预测结构与实验测定结构在整体折叠、结构域间相对取向以及局部结构等方面均存在显著差异。这些差异反映出当前 AI 在蛋白质结构预测领域虽然取得了重大进展,但仍面临诸多挑战。
蛋白质结构预测对于生物医学的发展至关重要,精确的蛋白质折叠模式定义在蛋白质 - 蛋白质相互作用研究、变构调节机制探索以及基于结构的药物设计等方面发挥着关键作用。然而,AI 在预测多结构域蛋白质折叠模式时的不准确性,限制了这些领域的进一步发展。本研究中观察到的预测偏差,为理解 AI 在蛋白质结构预测中的局限性提供了重要依据。
从实验结构角度来看,蛋白质周围环境(如缓冲液、离子和其他小分子)、晶体堆积接触以及其他潜在环境因素可能会使实验结构偏向特定构象,这是 AI 预测难以完全模拟的。从 AI 算法自身角度分析,其在处理结构域间相互作用时存在不足,尤其是在面对多结构域蛋白复杂的动态相互作用时,无法准确预测结构域的相对取向。此外,输入数据的质量和完整性,如进化同源物信息、序列覆盖度等,也对预测结果的准确性产生重要影响。
尽管 AI 在蛋白质结构预测中存在这些局限性,但随着实验结构数据的不断积累和训练模型的持续优化,有望开发出更精确的算法,提高对蛋白质结构域间取向预测的准确性。这将为生物医学领域的深入研究提供更可靠的结构基础,推动相关疾病机制研究、药物研发等工作的进展。本研究为后续科研人员改进蛋白质结构预测方法、深入理解蛋白质结构与功能关系提供了宝贵的参考,具有重要的科学价值和实践指导意义。
综上所述,该研究成果不仅指出了当前 AI 在蛋白质折叠预测中的问题,也为未来的研究方向提供了明确的指引,对推动蛋白质结构预测领域的发展具有不可忽视的作用。
生物通微信公众号
知名企业招聘