基于 3D 相似性分组的 ProCV:革新蛋白质口袋识别与配体相互作用分析

【字体: 时间:2025年04月10日 来源:iScience 4.6

编辑推荐:

  在蛋白质研究中,传统基于序列的方法难以准确识别蛋白质结合口袋,限制了对蛋白质 - 配体相互作用的研究。研究人员开展了 ProCV 这一基于结构的预测方法研究。结果显示,ProCV 特异性和敏感性高,能精准定位结合位点,为蛋白质 - 配体相互作用研究提供了有效工具。

  在生命科学领域,蛋白质就像一把神奇的 “锁”,而那些能与之结合的小分子则是开启各种生命活动的 “钥匙”。蛋白质通过特定的结合口袋与小分子相互作用,这些结合口袋的准确识别对于药物研发、理解蛋白质功能至关重要。然而,传统的基于序列的方法就像是戴着模糊的眼镜去看世界,很难捕捉到蛋白质结构的复杂性,不仅效率低,而且准确性也大打折扣。为了解决这一难题,青岛理工大学的研究人员开展了一项极具创新性的研究。他们提出了 ProCV(A 3D similarity grouping method for enhanced protein pocket recognition and ligand interaction analysis)这一基于结构的预测方法,利用先进的空间识别技术,在蛋白质口袋识别和配体相互作用分析方面取得了重要突破。该研究成果发表在《iScience》上,为蛋白质研究领域带来了新的曙光。
研究人员为开展此项研究,主要运用了以下关键技术方法:一是均匀空间采样,通过将蛋白质和配体结构空间划分为网格,从高密度区域提取关键点,采用质心网格法确定聚类中心,有效提取相关特征;二是 KD 树索引,利用 KD 树这一数据结构对蛋白质和配体数据的空间分布进行高效处理,通过最近邻搜索实现快速相似性匹配;三是 3D 霍夫变换,应用该变换对蛋白质口袋进行几何一致性分析,借助旋转矩阵和平移向量在 3D 空间中对齐蛋白质和配体口袋结构,提高口袋匹配的准确性 。
研究结果
  • 数据库选择:实验选用了 PDB、scPDB、BioLip 等关键结构数据库以及真实世界数据集。PDB 是生物分子 3D 结构数据的重要宝库;scPDB 专注于蛋白质与小分子结合位点,包含超 16,000 个结合位点;BioLip 则强调生物相关的配体 - 蛋白质相互作用,有超 38,000 个复合物记录,为研究提供了丰富的数据支持。
  • 与现有方法的对比:对比 AlphaFill、DeepSite、FPocket、PocketPicker 和 ProCV 的处理时间,发现 ProCV、FPocket 和 PocketPicker 处理时间更稳定,适合对时间敏感的任务;而 AlphaFill 和 DeepSite 虽精度高,但处理时间长。
  • 口袋重叠分数(POS):POS 用于衡量预测口袋与实际口袋的重叠程度。实验中,ProCV 与 Eguida’s、Huang’s 方法 POS 得分较高,表明其在捕捉结合位点结构特性方面表现出色,而 FPocket 得分较低 。
  • F1 分数和马修斯相关系数(MCC):F1 分数评估口袋预测的精度和召回率平衡,MCC 综合考量所有预测错误类别。结果显示,ProCV 与 Eguida’s、Huang’s 方法 F1 分数和 MCC 值相近且表现稳定,FPocket 则较差。
  • 准确性对比:通过均方根误差(RMSE)评估,ProCV 的 RMSE 最低,说明其口袋检测准确性最高,优于 LIGSITE 和 PASS。
  • 噪声鲁棒性:研究发现,随着噪声增加,蛋白质口袋相似性分组检测能力下降,但 ProCV 在不同噪声条件下仍能保持一定性能。
  • 口袋匹配准确性:以 1CC2 蛋白为例,ProCV 能实现口袋与整个蛋白结构的精确匹配,绿色线条展示出强结构相似区域,对药物发现和理解蛋白功能意义重大。
  • 强、弱相似匹配:通过对 1CC2 口袋与其他蛋白的相似性分析,发现强相似匹配的蛋白如 1CC2 和 1B4V 具有共享功能或进化特征;弱相似匹配的蛋白如 1CC2 与 1Q0Q、1RJ9 存在结构差异,反映出功能差异,体现了 ProCV 在区分相似结构蛋白方面的能力。
  • 跨数据集相似性估计:通过热图分析不同蛋白口袋的相似性,发现相似性高的口袋可能存在保守结合基序,有助于药物再利用;独特口袋则提示蛋白功能特殊,为药物设计带来挑战。
  • 真实世界源探索:对 H2B 组蛋白的研究发现,多数组蛋白口袋相似性强,如 7PJ1 对应数最多;2XQL 相似性弱。这为开发表观遗传抑制剂提供了重要线索。
    研究结论和讨论
    ProCV 利用 3D 相似性分组在 3D 霍夫空间进行口袋检测,能有效提取蛋白质 - 配体结合位点预测的关键结构信息。该方法硬件要求低、算法复杂度低,还能增强蛋白质结构比较分析的准确性。不过,ProCV 也存在一些局限性,如依赖数据库数据质量、对大型复合物或动态集合可扩展性不足、难以处理灵活结合位点等。未来研究将聚焦于优化 3D 特征提取算法、改进深度学习模型、探索新的交叉分析技术,以实现口袋特征的自动化、可扩展和高通量可视化,推动蛋白质分子对接预测和药物发现进程。这一研究成果为蛋白质研究领域提供了新的思路和方法,有望在未来的药物研发和生命科学研究中发挥重要作用,助力攻克更多与蛋白质相关的疾病难题 。**
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号