真实世界药物数据中的时间分布偏移对QSAR模型不确定性量化的影响及解决方案

【字体: 时间:2025年07月16日 来源:The Arts in Psychotherapy 1.5

编辑推荐:

  推荐:本研究针对药物发现中QSAR模型在时间分布偏移下的不确定性量化难题,通过分析15种生物测定数据的时间演变特征,系统评估了贝叶斯神经网络(BNN)、深度集成(MLPE)等方法的校准性能。研究发现靶向(TB)与ADME-T类检测的数据偏移模式存在显著差异,揭示了集成方法在ADME-T数据中的优越性及传统方法在TB数据中的局限性,为动态药物研发环境下的模型可靠性评估提供了实证依据。

  

在药物研发领域,定量构效关系(QSAR)模型已成为加速化合物筛选的重要工具,但模型预测的不确定性评估始终是制约其实际应用的瓶颈。传统不确定性量化方法通常基于独立同分布(i.i.d.)假设,而真实药物研发过程中,随着化学系列迭代优化和检测技术演进,生物测定数据会随时间产生显著分布偏移。这种时间维度上的数据演化导致模型性能评估失真——随机拆分验证的乐观结果与时间拆分验证的悲观结果可能相差30%以上,直接影响资源分配决策。

为破解这一难题,来自MolecularAI的研究团队开展了一项开创性研究。他们收集了制药公司内部15种生物测定的时序数据(包括7种靶向蛋白活性测定TB和8种药代动力学/毒性测定ADME-T),涵盖从5082至92161个化合物测量值。通过设计"时间折叠"拆分策略(将数据按测量时间分为5段),系统考察了1-3个时间段的训练数据对后续时间段预测的影响。研究创新性地引入最大均值差异(MMD)量化描述符空间偏移,结合t-SNE可视化技术,首次揭示了TB与ADME-T检测数据截然不同的演化规律:TB数据因项目导向的化学系列迭代呈现剧烈标签偏移(pIC50阈值分类比例波动达40%),而ADME-T数据因广谱筛选特性保持相对稳定。

关键技术方法包括:1)时序拆分策略模拟真实药物开发生命周期;2)扩展连通性指纹(ECFP)编码分子结构;3)深度集成(MLPE)与贝叶斯神经网络(BNN)等5种不确定性量化方法对比;4)Platt缩放和Venn-ABERS预测两种后校准技术;5)自适应校准误差(ACE)和二元交叉熵(BCE)双指标评估体系。

3.1 时间维度上的分布偏移

通过分析45个训练集发现,TB检测如TB-7在化学空间呈现明显时间聚类(t-SNE显示不同时间段化合物形成独立簇),其MMD值达0.35±0.02,显著高于ADME-T检测的0.12±0.03。标签空间分析更揭示TB-3检测中"优选类"(PC)比例从早期38%跃升至后期82%,而ADME-T检测如A-logD始终保持58±3%的稳定比例。这种差异源于TB检测聚焦特定靶点的结构优化,而ADME-T检测反映化合物固有性质。

3.2 不确定性量化方法比较

在ADME-T数据中,MLPE和BNN表现卓越——A-hERG检测的ACE从基线MLP的0.18降至0.11(p<0.01)。但对TB数据如TB-1,MLPE未能显著改善MLP的BCE(0.586 vs 0.614),研究者推测这源于标签偏移干扰了认知不确定性估计。值得注意的是,BNN在CYP2C9(II)检测中展现出特殊优势(AUC 0.734),可能与其对微小分布变化的敏感性有关。

3.3 后校准技术的局限性

Platt缩放在MMD<0.15时可使A-PM检测的ACE降低32%,但当MMD>0.25(如TB-7)时反而恶化校准效果。这验证了"校准集-测试集分布一致性"对后校准技术的关键影响,为模型更新周期制定提供了量化依据。

这项发表于《The Arts in Psychotherapy》的研究确立了三个重要范式:首先,证实了药物检测类型(TB/ADME-T)是选择不确定性方法的核心依据——ADME-T适用BNN等复杂方法,而TB数据可能只需简单MLP。其次,揭示了时间拆分验证的必要性,证明传统随机拆分会高估模型性能达25%。最后,构建了MMD阈值(0.2)作为后校准技术有效性的分水岭。这些发现为FDA"模型可信度评估指南"提供了实证支持,将推动AI在药物研发中从"静态工具"向"动态学习系统"转型。特别是对神经退行性疾病等需长期优化的靶点,该研究提出的时序验证框架可避免因数据偏移导致的假阳性决策,预计可使临床前研究成本降低15-20%。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号