利用删失回归标签增强药物发现中的不确定性量化:解锁新药研发关键密码

【字体: 时间:2025年04月22日 来源:Artificial Intelligence in the Life Sciences CS5.0

编辑推荐:

  在药物发现早期,定量构效关系(QSAR)的计算模型影响实验决策,但数据有限且标准方法难以利用删失标签。研究人员开展了利用删失回归标签增强药物发现中不确定性量化的研究。结果表明删失标签可提升模型性能,对新药研发意义重大。

  在药物研发的神秘世界里,每一种新药的诞生都像是一场充满挑战的冒险。药物发现早期的实验,不仅耗时久,而且成本高得惊人。想象一下,科研人员在浩如烟海的化学物质中寻找潜在的药物分子,就如同在黑暗中摸索宝藏,每一次尝试都需要耗费大量的时间和金钱。在这个过程中,定量构效关系(QSAR)的计算模型成为了科研人员的重要工具,它能帮助判断哪些实验更值得开展。然而,这个模型却面临着诸多困境。一方面,实验数据非常有限,就像拼图缺少了许多关键碎片;另一方面,实验中还会产生一种特殊的数据 —— 删失标签(censored labels),它提供的是阈值信息,而非精确的观测值,而传统的机器学习不确定性量化方法却无法充分利用这些标签。这就好比明明手里有一把独特的钥匙,却找不到能打开的锁,导致大量有价值的信息被浪费,严重影响了模型的准确性和可靠性,也阻碍了药物研发的进程。
为了打破这些困境,来自国外的研究人员勇敢地踏上了探索之旅,开展了一项旨在利用删失回归标签增强药物发现中不确定性量化的研究。他们的努力如同在黑暗中点亮了一盏明灯,为药物研发带来了新的希望。经过一系列深入研究,他们发现,尽管删失标签提供的是部分信息,但在实际的制药场景中,当大约三分之一或更多的实验标签是删失标签时,这些标签对于可靠地估计不确定性至关重要。这一发现意义非凡,它就像找到了药物研发中的关键密码,能够优化资源利用,提高对模型的信任度,大大加速新药研发的步伐。该研究成果发表在《Artificial Intelligence in the Life Sciences》上,引起了广泛关注。

研究人员在此次研究中用到了多个关键技术方法。在数据处理方面,他们对 15 个内部生物测定数据进行分析,这些数据涵盖了项目特异性靶点测定和与副作用相关的跨项目测定(如 ADME-T 性质测定) 。数据经过一系列处理,包括将测量值转化为合适的尺度、去除重复测量数据并编码为 Morgan 指纹。在模型构建上,他们提出了五种扩展现有技术的模型,以处理删失标签,同时设置了两个仅从观测标签学习的基线模型。此外,还采用了五折时间分割法模拟实际的制药项目建模,以评估模型的不确定性量化。

研究人员首先进行了消融研究(Ablation study)。他们对比了模型在使用和不使用删失数据训练时的性能差异,通过计算负对数似然(NLL)和均方误差(MSE)来评估。结果发现,对于大多数模型而言,使用删失回归标签训练能显著提升性能,尤其是当删失标签比例较高时。例如,对于 Ensemble 和 Gaussian Ensemble 模型,在大多数数据集上使用删失标签训练后性能显著增强;Bayes by Backprop 模型在删失标签占比超过 13% 的数据集上就有明显提升 。然而,对于 Gaussian 模型,使用删失标签训练虽然能增强不确定性估计,但在某些情况下会降低预测准确性。

接着是模型比较。研究人员从预测准确性、校准和整体性能等方面对模型进行比较。在预测准确性方面,以 MSE 为指标,发现 Ensemble 模型在大多数 ADME-T 测定中表现最佳,而在靶标测定中,最佳模型则随时间变化较大 。在评估模型不确定性估计的校准情况时,通过置信校准曲线发现,大多数模型的随机不确定性(aleatoric uncertainty)估计比认知不确定性(epistemic uncertainty)估计校准得更好,其中 Bayes by Backprop 模型在一些测定中的认知不确定性估计校准良好,而 Evidential 模型则存在明显的自信不足问题。从整体性能来看,综合考虑预测准确性和不确定性校准,Bayes by Backprop 模型在认知不确定性的 NLL 指标上表现最佳,Gaussian Ensemble 模型在随机不确定性估计方面表现出色。

最后,研究人员进行了案例研究。在认知不确定性量化案例中,以 Bayes by Backprop 模型为例,对 ADME-T hERG 和 Target 7 测定进行分析,发现该模型的认知不确定性估计能反映化学空间中的分布变化,为模型改进和数据探索提供了指导。在随机不确定性量化案例中,以 Gaussian Ensemble 模型为例,对比预测的随机不确定性与实验误差,发现模型虽能较好校准,但预测值与实验误差之间没有明显趋势,这引发了对模型随机不确定性估计与认知不确定性是否完全分离的思考。

研究结论和讨论部分指出,该研究成功开发了能有效利用删失标签的机器学习模型,为药物发现中的不确定性量化提供了更可靠的方法。研究发现不同类型测定(如靶标测定和 ADME-T 测定)在化学空间分布上存在差异,这影响了模型的性能和最佳模型的选择 。此外,案例研究为药物研发提供了实际应用的思路,如根据认知不确定性调整模型或探索新数据,对随机不确定性的进一步研究也有助于更深入理解模型与数据噪声的关系。这一研究成果为药物研发领域提供了重要的理论和实践支持,为新药的开发开辟了新的道路,推动了生命科学和健康医学领域的发展,让我们在攻克疾病、保障人类健康的道路上又迈出了坚实的一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号