编辑推荐:
在酶功能预测领域,现有工具存在局限。研究人员开展了利用 3D 图神经网络和局部 3D 描述符预测 EC 分类的研究(TopEC)。结果显示,TopEC 能有效提升预测性能,该成果为酶功能研究提供了新方法。
在生命的微观世界里,蛋白质是细胞活动的关键角色,而酶作为一类特殊的蛋白质,更是催化着各种生物化学反应,对维持生命活动至关重要。随着科技的发展,虽然蛋白质结构预测取得了显著进展,如 AlphaFold2 等技术的出现,但准确注释酶的分子功能仍然是一个极具挑战性的难题。一方面,实验测定酶功能耗时费力;另一方面,现有的计算方法在从酶结构预测功能时,容易受到局部结构特征偏差的影响,导致错误分类。为了解决这些问题,来自德国于利希研究中心(Forschungszentrum Jülich GmbH)、亥姆霍兹人工智能中心(Helmholtz AI Central Unit)和杜塞尔多夫海因里希?海涅大学(Heinrich Heine University Düsseldorf)的研究人员开展了深入研究。他们开发了 TopEC 这一软件包,利用 3D 图神经网络(GNNs)和局部 3D 描述符来学习酶的化学反应,并预测酶委员会(EC)分类。该研究成果发表在《Nature Communications》上,为酶功能预测领域带来了新的突破。
研究人员主要运用了以下关键技术方法:一是构建多种数据集,包括 Binding MOAD、TopEnzyme、PDB300、AF703 等,涵盖实验和预测的蛋白质结构,为模型训练提供丰富数据;二是采用 3D 图神经网络中的 SchNet 和 DimeNet++,通过编码原子和残基间的 3D 位置、距离和角度信息进行酶功能分类;三是运用 GNNExplainer 分析网络,探究节点对预测的重要性。
下面来看具体的研究结果:
- 总体策略:预测 EC 编号面临计算需求和折叠偏差(fold bias)的挑战。研究人员引入基于酶结合位点的局部 3D 描述符,聚焦于结合位点区域进行酶功能分类,同时降低 GPU 内存占用。通过这种方法创建了 TopEC - distances 和 TopEC - distances + angles 模型1。
- 数据集使用:综合多个数据集训练网络,其中 AF703 数据集因包含大量计算生成的酶结构,显著提升了预测性能。例如,使用 AF703 数据集训练的模型在主要(+0.18)、次要(+0.28)、次次类(+0.33)和指定(+0.33)水平上,F 分数都有大幅提高26。
- 结合位点局部信息的分类能力:实验表明,结合位点的局部信息足以对 EC 编号进行分类。在预测酶功能的七个主要类别时,TopEC - distances + angles 在残基分辨率下表现优异,平均 F 分数比其他神经网络更高。在预测完整 EC 编号层次结构时,TopEC - distances 和 TopEC - distances + angles 也分别在不同数据分割方式下取得最佳成绩34。
- 化学空间扩展对预测性能的影响:研究发现,扩展化学空间(如使用计算生成的酶结构)可提高网络的预测性能。使用 AF2 结构训练的网络在多个 EC 分类层次上的预测性能都得到显著提升,且结合 AF703 和 PDB300 数据集能预测更多种类的酶类57。
- 网络学习机制分析:通过分析发现,网络通过生化特征与局部形状的相互作用进行学习。突变实验表明,破坏局部化学或形状会降低网络性能。在原子分辨率下分类,能更清晰地了解网络的局部特性,发现参与催化反应的原子对预测更为重要89。
在研究结论和讨论部分,TopEC 方法展现出多方面的重要意义。它显著提升了 EC 分类预测的性能(F 分数达到 0.72),且无需对 3D 结构进行抽象,保留了结合位点的细节。同时,该模型对结合位点位置的不确定性具有鲁棒性,能够处理实验和计算生成的酶结构,适用于广泛的功能空间(>800 ECs)。虽然基于序列的方法(如 CLEAN)在预测性能上略胜一筹(F 分数为 0.74),但 TopEC 从结构角度提供了独特的视角,在化学环境中进行功能预测时表现稳健。不过,TopEC 也存在一些局限性,如对 GPU 内存有一定要求,依赖结合位点预测的准确性等。未来可通过改进网络架构、利用多构象数据库等方式进一步优化。总体而言,TopEC 为酶功能预测提供了一种创新且有效的工具,在酶工程、新酶筛选等领域具有广阔的应用前景 。