AI 驱动高精度受体 - 配体相互作用建模与结合分析:革新药物发现

【字体: 时间:2025年05月19日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  针对传统受体 - 配体相互作用预测耗时耗资源的问题,研究人员开发机器学习框架,融合 Lipinski 描述符、指纹图谱和基于图的分子表征,对比早期与晚期融合策略。发现早期融合模型性能更优,结合 LIME 阐明关键特征,为复杂疾病药物研发提供新工具。

  
在药物研发的浩瀚海洋中,寻找有效治疗复杂疾病的药物宛如大海捞针。传统实验方法不仅耗费大量时间、资源,且受限于样本数量和检测周期,难以满足加速新药发现的迫切需求。而精准预测药物候选分子与靶标受体的相互作用(如结合亲和力和作用模式),更是决定药物 efficacy 和安全性的核心环节。现有计算模型多依赖单一分子表征(如 Lipinski 规则描述符、分子指纹或图结构),未能充分挖掘多维度数据的协同价值,且模型可解释性不足,难以揭示分子相互作用的内在机制。在此背景下,来自国外研究机构的学者开展了一项极具创新性的研究,相关成果发表在《Computers in Biology and Medicine》,为药物发现领域带来了新的曙光。

研究人员构建了一个整合多尺度分子表征的机器学习框架,旨在提升受体 - 配体相互作用预测的准确性与可解释性。该研究采用的数据源于 Gentile 等人的工作,涉及 ZINC15 数据库中通过分子对接技术筛选至 12 个不同受体的分子子集(因计算资源限制,实际分析聚焦于 6 个受体的数据集,包含 120 万分子,docking score 范围为 - 15 至 - 3)。研究的核心技术方法包括:

  1. 多模态分子表征:整合 Lipinski 描述符(反映药物 - like 性质的规则)、分子指纹(如 ECFP4 等,用于编码分子结构特征)和基于图的表征(将分子视为原子节点与化学键边构成的图,捕捉拓扑结构)。
  2. 融合策略对比:开发早期融合(特征层面整合,联合学习多模态数据)与晚期融合(决策层面集成,通过模型 ensemble 聚合结果)两种策略,并与三种单一表征模型(Lipinski 描述符、分子指纹、图表征)对比。
  3. 可解释性分析:运用 Local Interpretable Model-agnostic Explanations(LIME,局部可解释模型无关解释法)解析模型决策逻辑,识别影响 docking score 预测的关键理化和结构特征。
  4. 生物学验证:通过与现有生物信息学工具对比及 3D 可视化分析,验证模型预测的生物学合理性。

1. 概述与 docking score 分布


研究首先分析了数据集的 docking score 分布(图 3A,原文图示标识已省略),120 万分子的 docking score 集中于 - 10 至 - 5 区间,呈现近似正态分布,为后续模型训练提供了基础数据特征。

2. 模型性能对比


通过五组模型(三种单一表征模型、早期融合、晚期融合)的交叉验证发现,早期融合模型在预测 docking score 的均方根误差(RMSE)和决定系数(R2)上显著优于其他模型。例如,在测试集上,早期融合的 R2 达到 0.89,而单一指纹模型为 0.78,表明多模态数据整合能有效提升预测的准确性与鲁棒性。

3. 关键特征识别与结合机制解析


利用 LIME 对早期融合模型进行解释,发现疏水性相互作用(如 ClogP 值)、氢键供体 / 受体数量(HBD/HBA)、芳环结构占比等是影响 docking score 的关键特征。例如,高 ClogP 值(代表脂溶性强)与低 docking score(结合亲和力强)呈正相关,印证了 “相似相溶” 原理在分子结合中的重要性。此外,模型还定位到受体结合口袋中的关键氨基酸残基(如某受体的 His327 和 Asp189),这些残基通过氢键或离子键与配体形成特异性相互作用,为药物设计提供了明确的结构靶点。

4. 结合位点预测与空间解析


研究进一步将 docking score 预测与受体结合位点定位相结合,通过空间分辨分析揭示配体在受体中的优势结合区域。例如,在某 G 蛋白偶联受体(GPCR)模型中,预测的高亲和力配体主要富集于跨膜结构域的疏水口袋内,与已知的药物结合模式高度吻合,验证了模型在空间预测层面的可靠性。

5. 模型泛化性验证


通过在不同受体家族(如激酶、核受体、GPCR)的数据集上测试,发现整合受体序列数据的早期融合模型在跨家族预测中表现更优,R2 值平均提升 0.12,表明引入受体序列特征可增强模型对 diverse receptor-ligand systems 的适应性。

研究结论与意义
本研究通过整合多模态分子表征与机器学习技术,构建了兼具高精度与可解释性的受体 - 配体相互作用预测框架。核心结论包括:

  1. 早期融合策略在特征层面整合多源数据,显著优于单一表征模型和晚期融合策略,为模型设计提供了新范式。
  2. LIME 分析揭示了影响结合亲和力的关键理化(如脂溶性、氢键)和结构特征(如芳环、特定氨基酸残基),为理性药物设计提供了机制性 insights。
  3. 结合位点预测与空间解析功能增强了模型在药物结构优化中的实用性,可辅助研究者快速定位关键作用区域。
  4. 跨受体家族的泛化性验证表明,该框架适用于多种靶点类型,具备广泛的临床前药物筛选应用潜力。

该研究突破了传统单一表征模型的局限性,通过数据融合与可解释性技术的结合,架起了计算模型与实验验证之间的桥梁。其成果不仅加速了候选分子的优先级排序(data-driven prioritization),更通过揭示结合机制推动了 “基于结构的药物设计” 向 “多维度机制解析” 的升级,为攻克癌症、代谢性疾病等复杂疾病的药物研发提供了强大工具。随着 AI 与计算生物学的深度融合,此类框架有望进一步革新药物发现流程,缩短从靶点识别到临床候选药物的研发周期,为精准医学时代的个性化治疗开辟新路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号