ActSeek算法:基于计算机视觉的AlphaFold数据库活性位点快速精准搜索新方法

【字体: 时间:2025年07月27日 来源:Bioinformatics 4.4

编辑推荐:

  研究人员开发了ActSeek算法,通过计算机视觉技术快速搜索AlphaFold数据库中与种子蛋白活性位点相似的蛋白质,解决了传统序列或结构搜索方法无法精准定位功能关键位点的问题。该工具成功应用于生物降解塑料合成酶、药物脱靶靶点发现等领域,为酶工程和药物研发提供了高效新策略。

  

随着蛋白质结构预测技术AlphaFold的突破,全球科学家获得了超过2亿个蛋白质的预测结构数据。然而,如何从海量数据中精准挖掘具有特定功能的蛋白质仍面临巨大挑战。传统基于序列的BLAST搜索或基于整体结构的FoldSeek算法往往无法准确识别决定蛋白质功能的关键区域——活性位点。这一问题在酶工程和药物研发领域尤为突出:酶催化活性依赖少数关键氨基酸的空间排列,而药物作用常由靶点蛋白局部结合口袋决定。

针对这一瓶颈,芬兰VTT技术研究中心(VTT Technical Research Centre of Finland Ltd)的Sandra Castillo团队开发了创新算法ActSeek。该工具受计算机视觉启发,通过局部结构比对技术,实现了AlphaFold数据库中活性位点的快速精准搜索。研究成果发表于《Bioinformatics》,为功能蛋白质挖掘提供了新范式。

研究采用三大核心技术:1)基于SVD(奇异值分解)的活性位点空间配准算法,精准对齐种子与查询蛋白的关键氨基酸;2)多级筛选策略,先通过距离阈值预筛候选蛋白,再计算最优旋转平移矩阵;3)综合评分系统,结合活性位点残基距离、局部序列相似性和空腔特征进行结果排序。算法支持多节点并行运算,单机16小时可完成200万蛋白质搜索。

3.1 ActSeek算法原理
研究通过图1直观展示了算法工作流程:用户定义种子蛋白活性位点(如图1A红标区域)后,程序从数据库(图1B)提取候选蛋白,经SVD计算最优空间变换矩阵(图1C),最终输出局部结构匹配的蛋白质(图1D)。创新性的预筛选步骤通过比较关键氨基酸间距(阈值3?)大幅提升搜索效率,而动态规划算法实现的"结构映射百分比"指标有效评估全局相似性。

3.2 新酶发现应用
以生物降解塑料合成关键酶PHA合酶为种子,ActSeek在β-水解酶折叠类蛋白质中发现11,964个传统方法遗漏的潜在同功能酶(图2A)。更值得注意的是,该工具修正了UniProt中9,080个错误注释的"PHA合酶",同时为4,875个未注释蛋白提出新功能假设。对塑料降解酶PETase和MHETase的搜索同样获得突破,分别发现11,115和216个新型候选酶,为塑料污染治理提供新资源。

3.3 药物脱靶预测
在药物安全评估场景中(图2B),ActSeek展现出卓越的特异性。以抗癌药Erlotinib靶点EGFR为种子,算法从20,417个人类蛋白中筛选出190个潜在脱靶蛋白,较BLAST减少62%假阳性。结构比对揭示,激酶Q9H3Y6虽与EGFR序列相似度<30%,但活性位点空间构象高度一致(图3),成功解释传统方法漏检原因。对降压药β-受体阻滞剂的搜索中,算法发现嗅觉受体等新型脱靶(图5),为药物副作用机制研究提供新方向。

3.4 性能比较
如表1所示,ActSeek在特异性上显著优于七种主流工具。在Sorafenib靶点筛选中,仅ActSeek和pyScoMotif检测到心房钠尿肽受体(图4),该发现可能解释该药心血管副作用。算法无需预索引的特性使其在200GB内存集群上即可处理AlphaFold全库,而Structmotif-search等工具需要500GB空间预存索引。

这项研究开创了蛋白质功能挖掘的新范式。ActSeek通过"局部决定功能"的核心思想,克服了传统方法在酶工程和药物研发中的局限性。工具已开源(非商业许可),其应用将加速生物制造、环境修复和精准医疗等领域发展。未来,整合活性位点化学性质评估、底物通道分析等功能,有望进一步拓展该算法的应用边界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号