编辑推荐:
为解决目前变异效应预测工具(VEPs)对无序区域(IDRs)变异预测效果不明的问题,研究人员开展了对多种 VEPs 在 IDRs 变异预测性能的研究。结果发现,预测 IDRs 变异的准确性低于有序区域,且 VEPs 在 IDRs 的灵敏度较低。这为后续开发 IDR 特异性特征的 VEPs 提供了方向。
在生物医学领域,蛋白质结构与功能的研究一直是热点。近年来,AlphaFold2 等人工智能技术的突破,为 3D 蛋白质结构建模带来了革命性的变化,在蛋白质设计和变异效应预测方面发挥了重要作用。然而,蛋白质中存在一些特殊区域,即内在无序区域(Intrinsically Disordered Regions,IDRs),它们缺乏明确的结构,序列保守性较低,AlphaFold2 对这些区域的预测置信度往往不高。
同时,变异效应预测器(Variant Effect Predictors,VEPs)作为预测遗传变异致病性的重要工具,在临床诊断中具有关键意义。其中,最新的 AlphaMissense 利用 AlphaFold2 模型,在预测变异效应方面达到了较高的灵敏度和特异性。但对于占人类蛋白质组 30% 的 IDRs 中的变异,这些工具的有效性仍不明确。在此背景下,来自德国马克斯?普朗克分子细胞生物学与遗传学研究所(Max Planck Institute of Molecular Cell Biology and Genetics)等机构的研究人员,开展了相关研究,其成果发表在《BMC Genomics》上。
研究人员主要运用了以下关键技术方法:首先,从 ClinVar 数据库下载临床变异数据,经过筛选和处理,得到包含 61878 个变异的数据集,其中 23234 个致病性变异和 38644 个良性变异,映射到 7459 个蛋白质上 。其次,使用 dbNSFP47a 命令行应用获取多种 VEPs 的致病性分数,包括 VEST v4.0、PolyPhen-2 v2.2.3(HVAR)、REVEL 等,并根据各工具的推荐阈值进行分类。然后,利用五种不同的计算工具(AIUPred、AlphaFold2 pLDDT 分数、metapredict、AlphaFold2-RSA 和 flDPnn)预测蛋白质的无序区域。最后,通过对 ClinVar 变异进行基准测试,计算 VEPs 的性能指标,如灵敏度、特异性、F1 分数和 ROC-AUC 等。
研究结果如下:
- 无序区域的计算工具:研究人员使用多种工具对无序区域进行识别,这些工具在预测无序区域时存在一定差异,但总体相关性较高。例如,AlphaFold2 pLDDT、metapredict 和 AlphaFold2-RSA 对蛋白质 N 端的预测结果与 AIUPred 和 flDPnn 不同,但在 C 端的预测上较为一致。
- 无序区域变异的特征:对 ClinVar 数据库的分析发现,IDRs 中的变异主要为良性,这与 IDRs 对氨基酸替换的耐受性较高、进化速度较快有关。同时,研究还发现 N - 甲硫氨酸位点的变异较多且易被 VEPs 误分类。
- VEPs 在无序区域的性能:研究表明,VEPs 在预测无序区域变异时,特异性较高但灵敏度较低,这一现象在不同的无序度量指标中均有体现。如 AlphaMissense 在预测 C 端 IDRs 变异时灵敏度最低,REVEL 和 VARITY 在特定 IDR 组中的灵敏度也较低。
- 案例分析:以热休克 β - 1 蛋白(HSPB1)为例,其 N 端的 P39L 变异被多种 VEPs 误判为良性,但该变异实际上与疾病相关。通过对其 3D 结构和二级结构的研究发现,考虑蛋白质的寡聚结构状态可能有助于正确分类该变异。
研究结论和讨论部分指出,目前预测 IDRs 中的致病性变异仍然具有挑战性,现有 VEPs 缺乏针对 IDRs 的特异性特征,导致灵敏度降低和灵敏度与特异性之间的差异。AlphaMissense 等 VEPs 在有序和保守区域表现良好,但在无序区域存在性能偏差。因此,建议在临床决策中报告二级结构信息和无序分数,以便进一步研究变异的功能影响和疾病相关性。未来,开发能够描述蛋白质 3D 结构及其在蛋白质复合物中相互作用的 IDR 特异性特征,将有助于提高 IDRs 中变异效应评估的准确性。这项研究为后续的相关研究提供了重要的参考,对推动生物医学领域的发展具有重要意义。