
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于氨基酸空间邻域的可解释性3Dn结构字母表在蛋白质局部搜索中的应用研究
【字体: 大 中 小 】 时间:2025年08月24日 来源:Bioinformatics 5.4
编辑推荐:
本研究针对蛋白质结构数据库快速膨胀背景下传统结构比对方法效率低下的问题,开发了名为"3Dn"的可解释性结构字母表。研究人员通过量化15?半径内氨基酸邻域的空间分布和二级结构特征,结合模糊邻域(blurry neighborhoods)和加权Jaccard相似性算法,构建了性能优于Foldseek 3Di字母表的新型编码体系。当3Dn与3Di字母表组合使用时,在不依赖氨基酸序列信息的情况下实现了目前局部搜索方法的最佳性能(SCOPe40测试集超家族级别敏感性达0.495)。该成果为远程同源体发现和蛋白质工程提供了高效工具,相关代码已开源。
随着AlphaFold预测的2.5亿个蛋白质结构数据涌入数据库,传统结构比对工具如TM-align和Dali已难以应对海量数据处理需求。虽然Foldseek开发的3Di字母表通过神经网络实现了高效搜索,但其"黑箱"特性导致字符难以解释,且仅考虑最近邻氨基酸的策略可能丢失重要结构信息。这种背景下,哈佛大学和塔夫茨大学联合团队在《Bioinformatics》发表的研究,开创性地提出了可解释的"3Dn"结构字母表。
研究团队采用多学科交叉方法:首先建立以Cα原子为原点的参考坐标系,将15?半径球体划分为250个等体积区域,结合4类二级结构(β折叠、右旋α螺旋、左旋α螺旋等)形成1000维n-hot向量;进而通过训练集学习过渡矩阵,将离散向量转化为连续分布的模糊邻域;最后采用基于加权Jaccard相似度的图聚类算法,生成包含20个字符的3Dn字母表。测试数据来自SCOPe40数据库,采用80%/20%划分训练测试集。
3Dn字母表的设计原理
通过定义包含Cβ矢量的标准坐标系,系统量化非序列相邻氨基酸的空间分布。如图1A所示,每个氨基酸的邻域信息被编码为包含位置和二级结构的n-hot向量,经过渡矩阵平滑后形成模糊邻域。这种处理有效解决了结构相似蛋白质间微小位移带来的比对噪声问题。
性能验证与比较
如表1所示,3Dn字母表在家族、超家族和折叠级别的搜索敏感性分别达到0.814、0.393和0.085。当与3Di字母表组合时,性能显著提升至0.874、0.495和0.151,成为不依赖氨基酸身份信息的当前最优方法。图2C的精确召回曲线显示,3Di-3Dn组合在超家族级别全面超越单字母表方法。
生物化学解释性
如图3-4所示,每个3Dn字符对应特定的空间构型模式。例如字符14代表R基团方向的α螺旋聚集(图4),字符18显示β折叠的均匀平面分布。通过分析字符与氨基酸极性、二面角的关系(图5),发现3Dn更倾向编码氨基酸身份信息,而3Di更擅长捕捉二级结构特征,这种互补性解释了组合性能的提升。
方法学创新
相比传统基于序列邻域的结构字母表(如kappa-alpha方法),3Dn首次实现了空间邻域的系统编码。如图12展示的完整字母表,不同字符清晰对应α螺旋、β折叠等特征的特定空间排布。研究者还开发了配套软件工具,支持新字母表的快速测试和组合优化。
该研究的突破性在于:首次建立了可解释的蛋白质空间邻域编码体系,其模糊邻域处理方法有效解决了结构比对中的噪声问题;通过证明组合字母表的优势,为未来蛋白质结构搜索提供了新范式;开源工具将促进更多结构字母表的创新研究。这些进展对理解蛋白质远程同源关系、加速蛋白质设计具有重要意义,特别是在缺乏序列相似性的蛋白质工程应用中展现出独特价值。
生物通微信公众号
知名企业招聘