编辑推荐:
在药物研发中,准确预测蛋白质 - 配体结合亲和力至关重要。当前机器学习模型在评估和实际应用中有缺陷,研究人员开发 AEV - PLIG 模型并构建 OOD Test 集。结果显示该模型性能优异,增强数据可提升预测能力,为药物发现提供新途径。
在药物研发的 “神秘世界” 里,准确预测蛋白质与配体结合时的自由能变化,就如同找到开启宝藏的钥匙。这不仅能帮助科研人员在海量的化合物中快速筛选出有潜力的药物分子,大大缩短研发周期,还能节省大量的人力、物力和财力。然而,传统的计算方法在这场 “寻宝之旅” 中遇到了重重困难。
基于知识或物理的计算方法,像是依赖统计势或分子力学力场的那些,在计算成本和准确性之间难以平衡。分子对接中常用的打分函数,虽然计算速度快,但因其基于启发式和物理近似,准确性大打折扣。而炼金术式的结合自由能(BFE)模拟方法,例如基于全原子分子动力学(MD)的自由能微扰(FEP)理论,虽能提供更精确的计算结果,可其对分子动力学力场的选择依赖过强,前期准备工作繁琐,还对结构修饰有限制,计算成本更是高得惊人,就像一座难以翻越的大山,阻碍了高通量虚拟筛选的进程。
机器学习(ML)的出现,给这个领域带来了新的希望。它利用大量的结合亲和力测量数据和高分辨率结构数据进行模型训练,试图找到分子结构与结合亲和力之间的神秘联系。但现实却给了它一记沉重的打击,当前的 ML 模型就像 “偏科生”,在基准测试中表现出色,可一旦面对现实世界中药物研发的复杂场景,如在命中到先导化合物优化(hit - to - lead optimisation)过程中对同系物配体的结合亲和力进行排序时,就会漏洞百出。这是因为它们常常无法学习到关键的生物物理原理,只是机械地记忆训练数据中的配体特征,甚至会拟合噪声,就像在黑暗中迷失了方向的船只。
为了打破这一困境,来自英国牛津大学的研究人员挺身而出,开启了一段探索之旅。他们的研究成果发表在《Communications Chemistry》上,为药物研发领域带来了新的曙光。
研究人员开展了一系列创新性的研究。他们先是引入了一种名为 AEV - PLIG(原子环境向量 - 蛋白质配体相互作用图,Atomic Environment Vector–Protein Ligand Interaction Graph)的新型注意力机制图神经网络模型,该模型巧妙地将原子环境向量与蛋白质 - 配体相互作用图结合,能够更精准地捕捉蛋白质和配体原子之间复杂而微妙的相互作用。接着,他们构建了一个全新的、更贴近现实的分布外测试集 ——OOD Test,这个测试集就像一个严格的 “考官”,专门用来检验模型的泛化能力,避免模型出现 “记忆式学习” 的情况。此外,研究人员还探索了利用增强数据(augmented data)来训练模型的方法,这些增强数据通过基于模板的建模或分子对接技术生成,大大丰富了训练数据的多样性。
在研究过程中,研究人员用到了几个关键的技术方法。一是构建了多种数据集,如使用 PDBbind v2020 数据集训练和验证模型,引入 BindingNet 和 BindingDB - DCS 数据集作为增强数据。二是设计了新的模型结构 AEV - PLIG,包括基于原子环境向量(AEV)计算和独特的图构建方式,以及使用图注意力网络(GATv2)和多层感知器(MLP)组成的神经网络架构进行训练和预测。三是采用多种评估指标,如皮尔逊相关系数(PCC)、肯德尔 tau 相关系数(Kτ)来评估模型性能,并使用引导程序(bootstrapping procedure)进行统计检验。
研究结果令人欣喜。AEV - PLIG 在多个基准测试中表现出色,在 CASF - 2016 基准测试中,其皮尔逊相关系数(PCC)达到 0.86,肯德尔 tau 相关系数(Kτ)达到 0.67 ,超越或与其他经验和基于 ML 的方法相当。在更具挑战性的 OOD Test 和 0 Ligand Bias 等测试集中,AEV - PLIG 同样展现出了良好的性能。尽管在 FEP 基准测试中,AEV - PLIG 的初始表现不如 FEP + ,但当使用增强数据训练后,其性能得到了显著提升,加权平均 PCC 从 0.41 提升到 0.59,Kτ 从 0.26 提升到 0.42 ,与 FEP + 的差距不断缩小。
从研究结论和讨论部分可以看出,这项研究意义重大。AEV - PLIG 模型的出现,为药物研发提供了一种高效且准确的结合亲和力预测工具。它不仅在性能上逐渐逼近传统的 FEP 方法,而且在计算速度上具有压倒性优势,比 FEP + 快约 400,000 倍,同时还无需繁琐的系统预处理,大大提高了药物筛选的效率。增强数据的应用为解决生化领域数据稀缺的问题提供了有效途径,随着更多准确的蛋白质 - 配体结构预测模型的出现,未来有望进一步提升模型性能。这些研究成果为加速早期药物发现提供了强大的支持,就像为药物研发的 “引擎” 注入了强劲的动力,推动整个领域朝着更加高效、精准的方向发展。