GenSPARC:融合结构感知与性质感知语言模型表征的通用性化合物-蛋白质相互作用预测模型

《Communications Chemistry》:Generalizable compound protein interaction prediction with a model incorporating protein structure aware and compound property aware language model representations

【字体: 时间:2025年12月20日 来源:Communications Chemistry 6.2

编辑推荐:

  本研究针对当前深度学习模型在化合物-蛋白质相互作用(CPI)预测中因依赖序列信息而泛化能力不足的问题,开发了GenSPARC模型。该模型通过整合AlphaFold2预测的蛋白质结构信息、FoldSeek三维相互作用字母表以及图卷积网络(GCN)和预训练化学语言模型提取的化合物特征,构建了多模态表征。研究结果表明,GenSPARC在多个CPI基准数据集上实现了最先进的性能,在虚拟筛选中表现出优异的泛化能力,为人工智能驱动的药物发现提供了有力工具。

  
在药物研发的漫长旅途中,寻找能与特定蛋白质靶点“锁钥相配”的候选药物分子,是决定成败的关键一步。传统的高通量筛选方法虽然有效,但耗时耗力且成本高昂。近年来,基于深度学习的化合物-蛋白质相互作用(Compound-Protein Interaction, CPI)预测模型应运而生,它们能够快速、低成本地评估小分子与蛋白质的结合能力,为药物发现带来了新的希望。
然而,这些模型也面临着严峻的挑战。首先,它们大多严重依赖蛋白质的氨基酸序列信息,而忽略了蛋白质的三维(3D)结构。蛋白质的功能与其空间构象密切相关,仅凭序列信息难以全面捕捉其与化合物结合的真实模式。其次,现有模型在训练数据上表现良好,但一旦遇到训练集中从未见过的蛋白质或化合物(即“未见”数据),其预测准确性往往会大幅下降,这被称为泛化能力不足。这种局限性极大地限制了这些模型在真实药物发现场景中的应用价值,因为新药研发往往需要探索全新的靶点和化合物。
为了突破这些瓶颈,来自东京工业大学、东京医科齿科大学和Preferred Networks公司的研究团队在《Communications Chemistry》上发表了他们的最新研究成果。他们开发了一个名为GenSPARC(Generalized Structure- and Property-Aware Representations of protein and chemical language models for CPI prediction)的深度学习模型,旨在通过整合蛋白质的结构信息和化合物的多模态特征,构建一个具有强大泛化能力的CPI预测工具。
关键技术方法
为了构建GenSPARC模型,研究人员采用了多项前沿技术。在蛋白质表征方面,他们利用AlphaFold2预测蛋白质的3D结构,并通过FoldSeek工具将其转化为结构感知的序列,再输入到预训练的SaProt蛋白质语言模型中,从而获得融合了序列和结构信息的蛋白质嵌入(Embedding)。在化合物表征方面,他们结合了图卷积网络(GCN)和预训练的SPMM化学语言模型,分别捕捉分子的拓扑结构信息和53种理化性质。最后,通过一个多模态注意力网络(Multimodal Attention Network, MAN)来融合蛋白质和化合物的表征,并预测结合亲和力(Binding Affinity)和相互作用位点(Contact Map)。研究使用了Karimi、Davis、KIBA和Metz等多个公开的CPI基准数据集进行模型训练和评估,并利用DUD-E数据集进行虚拟筛选(Virtual Screening)任务的验证。
研究结果
GenSPARC模型在Karimi数据集上展现出卓越的预测性能
为了评估GenSPARC的性能,研究人员首先在Karimi数据集上进行了测试。该数据集包含四种不同的数据划分方式,以检验模型在不同场景下的泛化能力:Seen-Both(训练集中见过蛋白质和化合物)、Unseen-Comp(训练集见过蛋白质但未见过化合物)、Unseen-Prot(训练集见过化合物但未见过蛋白质)以及Unseen-Both(训练集未见过蛋白质和化合物)。
在结合亲和力预测任务中,GenSPARC在所有四种划分方式下均取得了最佳或次佳的性能。例如,在最具挑战性的Unseen-Both划分中,GenSPARC的均方根误差(RMSE)为1.552,皮尔逊相关系数(PCC)为0.583,显著优于其他基线模型。在相互作用位点预测任务中,GenSPARC同样表现优异,其AUPRC和AUROC值在四种划分方式下均名列前茅,特别是在Unseen-Prot和Unseen-Both划分中,其AUPRC分别达到了20.00和18.19,远高于其他模型。
在更严格的序列和结构相似性划分下,GenSPARC依然保持稳健
为了更严格地评估模型的泛化能力,研究人员引入了基于序列相似性(Sequence-Hard)和结构相似性(Structure-Hard)的数据划分方式。在这种更严苛的测试条件下,GenSPARC依然表现出了强大的鲁棒性。在结合亲和力预测中,GenSPARC在Sequence-Hard和Structure-Hard设置下的平均RMSE分别为1.390和1.407,平均PCC分别为0.650和0.635,均优于所有基线模型。在相互作用位点预测中,GenSPARC同样保持了领先地位,其AUPRC和AUROC值在两种设置下均显著高于其他模型,证明了其对于新蛋白质和新化合物的强大预测能力。
GenSPARC在虚拟筛选中表现出色,尤其在缺乏实验结构时优势明显
虚拟筛选是药物发现中的一项核心任务,旨在从海量化合物库中快速识别出潜在的活性分子。研究人员在DUD-E数据集上对GenSPARC进行了虚拟筛选评估。
在零样本(Zero-Shot)设置下,当使用实验测定的蛋白质结构(PDB)作为输入时,GenSPARC(GenSPARC-PDB)取得了与当前最先进模型DrugCLIP-PDB相竞争的结果。然而,当使用AlphaFold2预测的结构(AF)作为输入时,GenSPARC(GenSPARC-AF)的优势便凸显出来。DrugCLIP-AF的性能出现了显著下降,而GenSPARC-AF则保持了相对稳健的性能,在0.5%富集因子(EF 0.5%)指标上达到了7.14,远高于DrugCLIP-AF的2.12。这表明GenSPARC在缺乏高质量实验结构的情况下,依然能够进行有效的虚拟筛选,这对于实际药物发现中大量依赖预测结构的情况具有重要意义。
消融研究证实了多模态表征的重要性
为了验证GenSPARC中各个组件的重要性,研究人员进行了消融研究(Ablation Study)。他们分别移除了蛋白质的结构感知模块、化合物的图卷积网络(GCN)模块以及化合物的性质编码器模块,并观察模型性能的变化。
结果表明,移除任何一个组件都会导致模型性能的下降。其中,移除GCN模块对相互作用位点预测的影响最为显著,导致AUPRC值急剧下降,这表明GCN在捕捉原子间相互作用方面起着至关重要的作用。移除结构感知模块和性质编码器模块也会导致性能下降,证明了整合蛋白质结构信息和化合物性质信息对于提升模型泛化能力的必要性。
研究结论与意义
本研究提出的GenSPARC模型,通过巧妙地整合蛋白质的结构感知表征和化合物的多模态表征,成功解决了当前CPI预测模型泛化能力不足的难题。该模型不仅在多个标准数据集上取得了最先进的性能,更重要的是,在更严格的、旨在模拟真实药物发现场景的数据划分下,依然保持了强大的预测能力。
GenSPARC的另一个突出优势在于其对预测蛋白质结构的鲁棒性。在虚拟筛选任务中,当使用AlphaFold2预测的结构作为输入时,GenSPARC的表现显著优于其他依赖精确实验结构的模型。这一特性使得GenSPARC在实验结构数据稀缺的情况下,依然能够为药物发现提供可靠的计算支持,极大地扩展了其应用范围。
综上所述,GenSPARC为人工智能驱动的药物发现提供了一种更通用、更可靠的解决方案。它不仅能够更准确地预测已知靶点和化合物的相互作用,还能够有效地探索全新的药物靶点和候选分子,有望加速新药的研发进程,为人类健康事业做出重要贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号