
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能驱动药物发现新范式:从结构预测到反应优化的机器学习革命
【字体: 大 中 小 】 时间:2025年08月09日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本期《Journal of Cheminformatics》特辑聚焦AI在药物发现中的前沿应用,研究人员通过开发CLAPE-SMB、Gnina 1.3等创新算法,解决了蛋白质-配体结合位点预测、分子对接评分等关键问题,显著提升了ADMET性质预测精度,并探索了联邦学习在数据隐私保护中的应用,为自主化学实验室发展奠定基础。
在药物研发领域,科学家们长期面临着"三高"困境:高成本、高失败率和高耗时。传统药物发现过程如同大海捞针,从数百万化合物中筛选出安全有效的候选药物往往需要耗费数十亿美元和十年光阴。更棘手的是,约40%的药物失败源于未能预测的毒性问题,特别是心脏毒性(hERG)和药物性肝损伤(DILI)等关键ADMET(药物代谢动力学)性质。随着人工智能技术的爆发式发展,机器学习(ML)正成为破解这一困局的新钥匙。
德国亥姆霍兹慕尼黑研究中心(Helmholtz Munich - Deutsches Forschungszentrum Für Gesundheit Und Umwelt)的Igor V. Tetko团队与Pfizer公司的Djork-Arné Clevert合作,在《Journal of Cheminformatics》发表了关于AI在药物发现中应用的特辑综述。研究团队系统评估了26篇创新论文,展示了机器学习如何从分子结构预测、性质评估到合成路线设计等多个维度重塑药物研发流程。
研究人员采用了多模态技术路线:在结构预测方面,结合对比学习(CLAPE-SMB)与3D图神经网络(GNN);性质预测中整合注意力机制(Attentive FP)与Transformer架构;反应优化环节则引入推测解码(speculative decoding)技术加速推理。特别值得注意的是,研究纳入了来自20个国家的多样化数据集,通过UMAP(均匀流形逼近与投影)分割策略确保模型评估的严谨性。
【结构基药物发现:结合位点、对接与评分函数】
Wang等开发的CLAPE-SMB方法仅用序列数据就能预测蛋白质-DNA结合位点,性能媲美依赖3D结构的方法。McNutt团队升级的Gnina 1.3软件引入共价对接功能,其CNN(卷积神经网络)评分函数在晶体结构测试中显示出卓越的准确性。Mukta等提出的AGL-EAT-Score通过将蛋白-配体复合物转化为3D子图,用17,000个代数图描述符预测结合亲和力,为传统力场方法提供了新思路。
【性质预测】
Yang等开发的AttenhERG模型在hERG毒性预测基准测试中表现最优,其注意力机制可解释毒性关键原子位点。针对药物性肝损伤,Rodríguez-Belenguer开发的StreamChol工具通过网页界面评估化合物胆汁淤积风险,解决了这一复杂多通路毒性终点的预测难题。Vigna团队则另辟蹊径,用2D指纹预测过渡金属配合物的光吸收特性,速度比传统TDDFT(时间相关密度泛函理论)提升数个数量级。
【机器学习方法分析与基准测试】
Guo等证实UMAP数据分割比传统Butina分割更能反映真实场景挑战。fastprop算法将Mordred描述符与深度学习结合,在保持ChemProp精度的同时提速10倍。Tetko等发现Transformer CNN模型在溶解度预测中显著优于图神经网络,且预设超参数可避免过拟合,节省万倍计算资源。Friesacher的研究则表明,贝叶斯不确定性估计能同时提高模型校准度与准确率。
【反应预测】
Torren-Peraire等设计的合成路线规划策略可同步制备30%更多化合物。Andronov团队采用推测解码技术使反应产物预测提速3倍,大幅降低AI碳足迹。Vangala证实大型语言模型(LLM)能从专利文献提取高质量反应数据,新增26%反应记录。
这项系统性研究揭示了机器学习在药物发现中的革命性影响:在结构预测方面,深度学习方法已能与传统分子对接和DFT计算分庭抗礼;性质预测中,注意力机制与Transformer架构显著提升ADMET模型可解释性;而反应优化领域,创新算法既加速了研发流程又降低了计算能耗。特别值得注意的是,研究强调了数据隐私(联邦学习)、模型安全(加密攻击分析)和环境影响(碳足迹)等新兴议题,为AI驱动的自主药物研发实验室发展指明了方向。这些突破不仅缩短了药物发现周期,更通过融入专家知识(如Nahal等的人机协同分子生成)和物理约束(如Errington提出的药效团敏感损失),在人工智能与化学直觉间架起了桥梁。
生物通微信公众号
知名企业招聘