综述：机器学习在药物-靶点相互作用预测中的应用：模型、挑战与计算策略全面回顾

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computational Biology and Chemistry》：Machine learning for drug-target interaction prediction: A comprehensive review of models, challenges, and computational strategies

【字体：大中小】 时间：2026年01月08日 来源：Computational Biology and Chemistry 3.1

编辑推荐：

　　这篇综述系统回顾了人工智能（AI）与机器学习（ML）如何变革药物-靶点相互作用（DTI）与亲和力（DTA）预测领域。文章详细梳理了从传统定量构效关系（QSAR）、分子对接到现代图神经网络（GNN）、深度学习（DL）及混合模型等多种方法，涵盖了数据表征、特征工程、模型架构、训练评估协议及下游应用。作者批判性地分析了当前挑战（如数据偏差、模型可解释性不足）并提出了具体改进方案，强调了严格验证和实际应用价值，为加速药物发现（如先导化合物识别、药物重定位）提供了重要指导。

引言

药物发现是一个漫长、资源密集且高失败率的过程。传统实验方法识别药物-靶点相互作用（DTI）尤其耗时且昂贵。人工智能（AI）和机器学习（ML）正在变革DTI预测，展现出减少药物开发时间和成本的巨大潜力。本综述旨在全面审视AI/ML如何重塑这一领域。

DTI与DTA的生物学和实验基础

DTI指的是药物分子与靶点生物分子（通常是蛋白质）之间的结合或关联。药物-靶点亲和力（DTA）则定量测量相互作用的强度，通常以平衡解离常数（K_d）、抑制常数（K_i）或半数抑制浓度（IC₅₀）表示。实验方法包括高通量筛选（HTS）、表面等离子共振（SPR）、等温滴定微量热法（ITC）以及X射线晶体学、冷冻电子显微镜（cryo-EM）等结构生物学技术，它们为计算模型提供了至关重要的数据基础。

传统的计算机模拟方法

1.
基于配体的方法（QSAR/PCM）：定量构效关系（QSAR）模型基于“化学结构决定生物活性”的范式，利用化合物的物理化学描述符来预测其生物活性。蛋白质化学计量学（PCM）则进一步整合了靶点蛋白的信息。
2.
基于结构的方法（分子对接）：分子对接通过模拟“锁钥”原理，预测小分子配体在生物大分子靶点结合位点中的取向和构象，并利用评分函数评估结合亲和力。常用工具包括AutoDock Vina、Glide等。
3.
基于物理学的方法（分子动力学模拟MD）：分子动力学（MD）模拟通过求解牛顿运动方程，在原子水平上模拟药物-靶点复合物在水溶液中的动态行为，可用于结合自由能计算（如自由能微扰FEP）和结合模式验证。

问题表述、数据资源与处理

DTI/DTA预测本质上是一个监督学习问题，即学习一个函数，将药物-靶点对映射到相互作用结果（二元分类或连续亲和力值）。常用公共数据集包括ChEMBL、BindingDB、KIBA、Davis和DrugBank等。数据处理的挑战主要在于类别不平衡、信息泄露以及数据集偏差，需要通过严格的拆分策略（如随机拆分、支架冷启动、靶点冷启动）和负样本校准来应对。

分子表征与特征工程

1.
药物表征：包括简化分子线性输入规范（SMILES）、分子指纹（如ECFP、MACCS）、分子图（原子为节点，化学键为边）以及三维结构表征（如点云）。
2.
靶点表征：包括基于序列的表示（如氨基酸组成AAC、伪氨基酸组成PseAAC、蛋白质语言模型如ESM-2的嵌入）、基于结构的表示（如接触图、溶剂可及表面积SASA）以及基于网络的表示（如蛋白质-蛋白质相互作用PPI网络、知识图谱KG嵌入）。
3.
特征工程与提取：涉及归一化、降维（如主成分分析PCA）以及从上述表征中学习有判别性的特征。

机器学习模型

1.
监督学习模型：包括支持向量机（SVM）、随机森林（RF）等传统机器学习算法，以及结合特征选择和重采样技术（如SMOTE）的管道。它们在化学空间内预测表现良好，但对冷启动场景泛化能力有限。
2.
图模型：图神经网络（GNNs），如图卷积网络（GCN）、图注意力网络（GAT）和知识图谱嵌入模型（如KG-DTI），能够有效捕捉药物和靶点的拓扑结构以及它们之间的复杂关系，在异质图上的链接预测任务中表现出色。
3.
深度学习模型：卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）以及Transformer架构被用于处理序列（SMILES、蛋白质序列）和图像式数据（如将序列转化为图像）。这些模型能自动学习层次化特征。
4.
混合模型：结合了上述多种模型的优势，例如将CNN用于序列特征提取，再与GNN学习的图特征进行融合（如DeepDrug, MINDG），或者引入注意力机制（如HyperAttentionDTI, AttentionDTA）以提升模型性能和可解释性。

模型训练与评估

训练协议包括使用正则化（如Dropout, L2正则化）防止过拟合，以及采用焦点损失（Focal Loss）等策略处理类别不平衡。评估方案至关重要，通常采用k折交叉验证和严格的拆分策略（如冷启动拆分）来可靠估计模型性能。评估指标方面，DTI分类常用曲线下面积（AUROC）、精确率-召回率曲线下面积（AUPRC）、精确率、召回率和F₁分数；DTA回归则常用均方根误差（RMSE）、平均绝对误差（MAE）、皮尔逊相关系数和一致性指数（CI）。模型可解释性（XAI）和前瞻性实验验证是建立信任和推动实际应用的关键。

应用与案例研究

DTI预测模型已广泛应用于药物发现的多个环节：

•
虚拟筛选与先导化合物识别：快速从超大化合物库中筛选出可能具有活性的分子。
•
靶点反卷积与作用机制（MoA）推断：为表型筛选中发现的活性化合物推测其分子靶点。
•
脱靶效应预测与安全性药理学：早期识别化合物可能产生不良反应的潜在靶点。
•
药物重定位与适应症扩展：为已上市药物发现新的治疗用途，例如在COVID-19疫情期间预测巴瑞替尼（Baricitinib）的潜在抗病毒作用。
•
多向药理学与网络药理学：设计或筛选能同时调节多个靶点的药物，以治疗复杂疾病。
•
合理联合疗法：预测具有协同效应的药物组合。
•
精准医疗与临床决策支持：根据患者的分子特征匹配最有效的药物。

当前局限性与挑战

尽管取得了显著进展，该领域仍面临诸多挑战：计算效率和可扩展性对于处理超大规模库存在压力；数据不平衡和负样本不确定性影响模型可靠性；对新化学型或新靶点的预测（冷启动）能力仍有待提高；模型的可解释性通常不足，被视为“黑箱”；不同数据集间的泛化能力有限；容易过拟合；以及缺乏鲁棒的基准测试和前瞻性验证。

研究发现与未来方向

研究发现，结合结构信息的表示和先进的模型架构（如GNNs、Transformer）能显著提升预测性能。严格的评估协议对于获得可信的结果至关重要。未来研究方向包括：开发更高效、可扩展的算法；利用基础模型（如蛋白质语言模型）进行预训练以改善冷启动问题；融合多模态数据（序列、结构、网络）；增强模型的可解释性和不确定性量化；建立更标准、更严格的基准测试平台；以及加强计算预测与实验验证之间的闭环迭代，最终推动AI/ML在药物发现中发挥更大作用。

结论

AI/ML驱动的DTI/DTA预测已经成为药物发现中不可或缺的工具。通过整合多尺度信息、采用先进的机器学习架构并坚持严格的评估标准，这些模型有望为加速药物研发、提高成功率以及实现精准医疗做出持续贡献。未来的发展依赖于计算科学家、化学家、生物学家和临床医生之间的跨学科合作。

联系信箱：

粤ICP备09063491号

热点排行