基于多任务图变换器的药物分子固有溶解度预测新方法

【字体: 时间:2025年10月14日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对药物发现中水溶性预测精度不足的难题,利用强生内部溶解度数据,通过pH-溶解度方程计算得到13,306个化合物的固有溶解度(S0),开发了能同时预测S0和7种相关理化性质的多任务图变换器模型。该模型在高质量测试集上RMSE达0.61,R2为0.60,实现了药物分子固有溶解度预测的突破性进展,为早期药物筛选提供了可靠工具。

  
在药物研发的漫长征程中,水溶性始终是决定化合物命运的关键因素。就像一艘船的吃水深度决定了它能航行多远,药物的溶解度直接影响其在体内的吸收程度和最终疗效。然而令人困扰的是,尽管科学家们投入了大量精力,准确预测药物分子的水溶性仍然像寻找"圣杯"一样困难。问题的核心在于两大挑战:缺乏高质量、大规模的药物样分子数据集,以及预测算法和分子表示方法的局限性。
回顾历史,2008年和2018年的两次溶解度预测大赛都得出了令人警醒的结论——所有方法的预测效果都"同样好/同样差",十年间几乎没有实质性进展。更令人深思的是,Palmer和Mitchell的研究发现,实验测量的不确定性并非主要限制因素,算法和分子表示才是关键所在。这就好比用模糊的地图导航,无论怎样优化行进路线,最终都难以到达精确的目的地。
正是在这样的背景下,赵佳溪等研究人员在《Journal of Cheminformatics》上发表了他们的创新性研究。他们巧妙利用了强生(Johnson & Johnson)内部积累的大量溶解度数据,这些数据来自统一的高通量筛选流程,并包含溶解后残余固体的状态评估,确保了数据质量和一致性。
研究团队采用了一套精妙的三步法策略:首先基于理论pH-溶解度方程和内部pKa预测工具,从pH依赖性溶解度数据中计算出固有溶解度(S0);随后开发了创新的多任务图变换器模型,同时预测S0和七种相关理化性质;最后通过预测的S0和pKa值生成完整的pH-溶解度曲线。
技术方法上,研究团队主要运用了三大核心技术:基于GraphGPS框架构建的图变换器架构,结合随机游走位置编码和GINE消息传递神经网络;引入Gradformer中的指数衰减掩码机制,增强模型对图结构局部和全局信息的捕捉能力;采用多任务学习策略,通过不确定性加权损失函数同时优化八个相关理化性质的预测任务。模型训练使用了强生内部获得的13,306个药物样化合物的计算S0数据及相关性质数据。
Step 1: generation of the So dataset
研究人员设计了一套严谨的数据处理流程,将pH 2和pH 7下的溶解度测量值与预测的pKa值相结合,通过特定的溶解度方程计算S0。针对不同电离特性的化合物,制定了智能选择规则:酸性化合物优先使用pH 2溶解度数据,碱性化合物使用pH 7数据,两性离子化合物则被排除。最终获得包含13,306个药物化合物的高质量S0数据集。
Step 2: model building, training and evaluation
研究团队构建的多任务图变换器模型展现了卓越性能。在高质量测试集上,该模型预测S0的均方根误差(RMSE)为0.62对数单位,决定系数(R2)达到0.60。这一成绩在2015-2023年热力学溶解度模型性能分布中位居前列,标志着药物分子溶解度预测的重大突破。
对比实验显示,多任务学习策略显著优于单任务方法,而深度学习模型也明显超越了传统的随机森林(Random Forest)模型。特别值得注意的是,随机森林在预测高溶解度和低溶解度化合物时表现不佳,而多任务图变换器模型在整个溶解度范围内都保持了稳定的预测能力。
Step 3: calculation of the pH-solubility profile
通过预测的S0和pKa值,研究团队成功生成了可靠的pH-溶解度曲线。对810个测试集化合物的分析表明,基于预测S0计算的溶解度曲线与实测值高度吻合,75%的化合物预测误差小于0.71对数单位。这种方法不仅提供了单点预测,还能为药物研发人员提供完整的溶解度特性图谱。
研究的讨论部分揭示了一个重要发现:虽然多任务图变换器模型在内部测试集上表现优异,但在外部测试集(第二次溶解度挑战赛的测试集)上的预测性能有所下降。这提示我们,深度学习模型可能对实验条件差异更为敏感,或者不同数据源定义的化学空间存在差异。这一发现为未来研究指明了方向——需要进一步提高模型的泛化能力和跨数据集预测稳定性。
该研究的真正价值在于其方法论的整体性创新。通过"计算-预测-计算"的闭环策略,研究人员不仅开发了先进的预测模型,还建立了一套从有限实验数据推导完整理化特性曲线的实用框架。特别是在pKa预测精度足够的前提下,这种方法能够以较低成本获得丰富的药物溶解特性信息,为早期药物筛选和优化提供了强大工具。
正如研究人员在结论中指出的,这项研究的意义不仅在于实现了state-of-the-art的预测性能,更重要的是展示了多任务学习在药物性质预测中的巨大潜力。同时训练多个相关任务使模型能够捕捉更通用的分子模式,从而提升每个单独任务的预测准确性。这种思路为未来药物信息化研究提供了新的范式,有望在更多的药物理化性质预测任务中发挥重要作用。
随着人工智能技术的不断发展,像多任务图变换器这样的先进模型正在改变药物研发的游戏规则。它们不仅提高了预测精度,还大大扩展了我们从有限实验数据中提取有用信息的能力。这项研究为解决长期困扰药物研发领域的溶解度预测难题提供了新的解决方案,也为更高效、更经济的药物开发流程奠定了坚实基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号