综述:机器学习在药物-靶点相互作用预测中的应用:模型、挑战与计算策略全面回顾

《Computational Biology and Chemistry》:Machine learning for drug-target interaction prediction: A comprehensive review of models, challenges, and computational strategies

【字体: 时间:2026年01月08日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  这篇综述系统回顾了人工智能(AI)与机器学习(ML)如何变革药物-靶点相互作用(DTI)与亲和力(DTA)预测领域。文章详细梳理了从传统定量构效关系(QSAR)、分子对接到现代图神经网络(GNN)、深度学习(DL)及混合模型等多种方法,涵盖了数据表征、特征工程、模型架构、训练评估协议及下游应用。作者批判性地分析了当前挑战(如数据偏差、模型可解释性不足)并提出了具体改进方案,强调了严格验证和实际应用价值,为加速药物发现(如先导化合物识别、药物重定位)提供了重要指导。

  
引言
药物发现是一个漫长、资源密集且高失败率的过程。传统实验方法识别药物-靶点相互作用(DTI)尤其耗时且昂贵。人工智能(AI)和机器学习(ML)正在变革DTI预测,展现出减少药物开发时间和成本的巨大潜力。本综述旨在全面审视AI/ML如何重塑这一领域。
DTI与DTA的生物学和实验基础
DTI指的是药物分子与靶点生物分子(通常是蛋白质)之间的结合或关联。药物-靶点亲和力(DTA)则定量测量相互作用的强度,通常以平衡解离常数(Kd)、抑制常数(Ki)或半数抑制浓度(IC50)表示。实验方法包括高通量筛选(HTS)、表面等离子共振(SPR)、等温滴定微量热法(ITC)以及X射线晶体学、冷冻电子显微镜(cryo-EM)等结构生物学技术,它们为计算模型提供了至关重要的数据基础。
传统的计算机模拟方法
  1. 1.
    基于配体的方法(QSAR/PCM):定量构效关系(QSAR)模型基于“化学结构决定生物活性”的范式,利用化合物的物理化学描述符来预测其生物活性。蛋白质化学计量学(PCM)则进一步整合了靶点蛋白的信息。
  2. 2.
    基于结构的方法(分子对接):分子对接通过模拟“锁钥”原理,预测小分子配体在生物大分子靶点结合位点中的取向和构象,并利用评分函数评估结合亲和力。常用工具包括AutoDock Vina、Glide等。
  3. 3.
    基于物理学的方法(分子动力学模拟MD):分子动力学(MD)模拟通过求解牛顿运动方程,在原子水平上模拟药物-靶点复合物在水溶液中的动态行为,可用于结合自由能计算(如自由能微扰FEP)和结合模式验证。
问题表述、数据资源与处理
DTI/DTA预测本质上是一个监督学习问题,即学习一个函数,将药物-靶点对映射到相互作用结果(二元分类或连续亲和力值)。常用公共数据集包括ChEMBL、BindingDB、KIBA、Davis和DrugBank等。数据处理的挑战主要在于类别不平衡、信息泄露以及数据集偏差,需要通过严格的拆分策略(如随机拆分、支架冷启动、靶点冷启动)和负样本校准来应对。
分子表征与特征工程
  1. 1.
    药物表征:包括简化分子线性输入规范(SMILES)、分子指纹(如ECFP、MACCS)、分子图(原子为节点,化学键为边)以及三维结构表征(如点云)。
  2. 2.
    靶点表征:包括基于序列的表示(如氨基酸组成AAC、伪氨基酸组成PseAAC、蛋白质语言模型如ESM-2的嵌入)、基于结构的表示(如接触图、溶剂可及表面积SASA)以及基于网络的表示(如蛋白质-蛋白质相互作用PPI网络、知识图谱KG嵌入)。
  3. 3.
    特征工程与提取:涉及归一化、降维(如主成分分析PCA)以及从上述表征中学习有判别性的特征。
机器学习模型
  1. 1.
    监督学习模型:包括支持向量机(SVM)、随机森林(RF)等传统机器学习算法,以及结合特征选择和重采样技术(如SMOTE)的管道。它们在化学空间内预测表现良好,但对冷启动场景泛化能力有限。
  2. 2.
    图模型:图神经网络(GNNs),如图卷积网络(GCN)、图注意力网络(GAT)和知识图谱嵌入模型(如KG-DTI),能够有效捕捉药物和靶点的拓扑结构以及它们之间的复杂关系,在异质图上的链接预测任务中表现出色。
  3. 3.
    深度学习模型:卷积神经网络(CNN)、循环神经网络(RNN)、长短期记忆网络(LSTM)以及Transformer架构被用于处理序列(SMILES、蛋白质序列)和图像式数据(如将序列转化为图像)。这些模型能自动学习层次化特征。
  4. 4.
    混合模型:结合了上述多种模型的优势,例如将CNN用于序列特征提取,再与GNN学习的图特征进行融合(如DeepDrug, MINDG),或者引入注意力机制(如HyperAttentionDTI, AttentionDTA)以提升模型性能和可解释性。
模型训练与评估
训练协议包括使用正则化(如Dropout, L2正则化)防止过拟合,以及采用焦点损失(Focal Loss)等策略处理类别不平衡。评估方案至关重要,通常采用k折交叉验证和严格的拆分策略(如冷启动拆分)来可靠估计模型性能。评估指标方面,DTI分类常用曲线下面积(AUROC)、精确率-召回率曲线下面积(AUPRC)、精确率、召回率和F1分数;DTA回归则常用均方根误差(RMSE)、平均绝对误差(MAE)、皮尔逊相关系数和一致性指数(CI)。模型可解释性(XAI)和前瞻性实验验证是建立信任和推动实际应用的关键。
应用与案例研究
DTI预测模型已广泛应用于药物发现的多个环节:
  • 虚拟筛选与先导化合物识别:快速从超大化合物库中筛选出可能具有活性的分子。
  • 靶点反卷积与作用机制(MoA)推断:为表型筛选中发现的活性化合物推测其分子靶点。
  • 脱靶效应预测与安全性药理学:早期识别化合物可能产生不良反应的潜在靶点。
  • 药物重定位与适应症扩展:为已上市药物发现新的治疗用途,例如在COVID-19疫情期间预测巴瑞替尼(Baricitinib)的潜在抗病毒作用。
  • 多向药理学与网络药理学:设计或筛选能同时调节多个靶点的药物,以治疗复杂疾病。
  • 合理联合疗法:预测具有协同效应的药物组合。
  • 精准医疗与临床决策支持:根据患者的分子特征匹配最有效的药物。
当前局限性与挑战
尽管取得了显著进展,该领域仍面临诸多挑战:计算效率和可扩展性对于处理超大规模库存在压力;数据不平衡和负样本不确定性影响模型可靠性;对新化学型或新靶点的预测(冷启动)能力仍有待提高;模型的可解释性通常不足,被视为“黑箱”;不同数据集间的泛化能力有限;容易过拟合;以及缺乏鲁棒的基准测试和前瞻性验证。
研究发现与未来方向
研究发现,结合结构信息的表示和先进的模型架构(如GNNs、Transformer)能显著提升预测性能。严格的评估协议对于获得可信的结果至关重要。未来研究方向包括:开发更高效、可扩展的算法;利用基础模型(如蛋白质语言模型)进行预训练以改善冷启动问题;融合多模态数据(序列、结构、网络);增强模型的可解释性和不确定性量化;建立更标准、更严格的基准测试平台;以及加强计算预测与实验验证之间的闭环迭代,最终推动AI/ML在药物发现中发挥更大作用。
结论
AI/ML驱动的DTI/DTA预测已经成为药物发现中不可或缺的工具。通过整合多尺度信息、采用先进的机器学习架构并坚持严格的评估标准,这些模型有望为加速药物研发、提高成功率以及实现精准医疗做出持续贡献。未来的发展依赖于计算科学家、化学家、生物学家和临床医生之间的跨学科合作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号