数据整合与一致性评估:提升分子性质预测可靠性的新策略

《Journal of Cheminformatics》:Enhancing molecular property prediction through data integration and consistency assessment

【字体: 时间:2025年10月31日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对ADME预测中数据异质性和分布错位问题,开发了AssayInspector工具包,通过系统性数据一致性评估(DCA)揭示黄金标准与基准数据集间的显著差异。研究表明盲目整合数据会降低模型性能,而基于一致性分析的智能整合策略可提升预测准确性,为药物发现领域提供了可靠的数据质量控制方案。

  
在药物研发的早期阶段,准确预测化合物的药代动力学(ADME)性质是决定候选药物成败的关键。然而,研究人员面临着一个严峻挑战:公共ADME数据集存在显著的异质性和分布错位问题。这些数据差异可能源于实验条件、化学空间覆盖范围等多种因素,导致机器学习模型在整合不同来源数据时预测准确性大打折扣。
以治疗数据共享平台(TDC)为代表的基准数据集与黄金标准源之间存在显著差异,这种数据不一致性已成为制约ADME预测模型发展的瓶颈。更令人担忧的是,即使进行数据标准化处理,也未必能改善预测性能,有时甚至会产生反效果。这一现象凸显了在建模前进行严格数据一致性评估(DCA)的迫切必要性。
为了解决这一挑战,Raquel Parrondo-Pizarro等研究人员在《Journal of Cheminformatics》上发表了他们的最新研究成果。他们开发了AssayInspector——一个模型无关的Python工具包,专门用于在机器学习流程之前系统评估数据集的一致性。该工具通过统计摘要、可视化图表和诊断报告,帮助识别异常值、批次效应和数据集间的不一致性。
研究人员聚焦于两个关键的ADME参数:清除率(Clearance,表示药物从血液中被清除的速率)和半衰期(Half-life,指药物活性成分浓度降至峰值一半所需的时间)。通过分析5个半衰期数据集和7个清除率数据集,他们发现了令人惊讶的结果。例如,Fan等人2024年发布的半衰期数据集(被ADMETlab 3.0等平台作为主要数据源)与其他数据集存在显著分布差异,其半衰期值明显偏低。进一步分析表明,这种差异可能源于该数据集主要包含临床前化合物,而其他数据集则富含已批准药物。
更为关键的是,TDC平台中的清除率基准数据集(来自阿斯利康的体外筛选数据)与其他基于人体内数据的数据集存在系统性差异。对于相同分子,TDC报告的清除率值显著高于其他数据集,这种不一致性很可能源于体外实验条件(如人肝微粒体)无法完全模拟体内复杂的生物环境。
为了验证这些发现的实际影响,研究人员训练了多种机器学习模型(包括XGBoost、支持向量机、随机森林和K近邻算法),比较了不同数据整合策略下的预测性能。结果明确显示,盲目整合所有数据源会导致预测性能下降,而根据AssayInspector的推荐进行智能整合(如同质数据集整合、异质数据集单独建模)能显著提高模型性能。
关键技术方法
研究团队开发了AssayInspector工具包,其主要技术方法包括:1)使用ECFP4指纹和RDKit描述符进行分子表征;2)应用Kolmogorov-Smirnov检验和卡方检验进行分布比较;3)采用UMAP降维技术可视化化学空间覆盖;4)建立交叉验证框架防止数据泄露;5)使用hyperopt进行超参数优化。所有ADME数据集均经过严格的分子标准化和去重复处理,确保数据质量。
数据一致性分析结果
通过AssayInspector对半衰期数据集的分析显示,Fan等人数据集的值分布显著低于其他数据集(KS检验p<0.0001),中位差异值范围为0.778-1.026。该数据集贡献了最大比例的独特分子(<10%与其他源重叠),覆盖了更广阔的化学空间。尽管存在分布差异,但共享分子间的注释一致性较高,表明差异主要源于化学空间采样差异而非测量不一致。
清除率数据集的不一致性
清除率数据集分析揭示了更严重的不一致性问题。TDC数据集显示出显著更高的清除率分布(KS检验p<0.0001),平均差异值达0.680-0.855。对共享分子的分析发现,TDC系统性地报告更高的清除率值,这种不一致性很可能源于其体外实验条件(人肝微粒体)与体内数据的本质差异。
智能数据整合提升预测性能
模型性能评估结果表明,基于一致性评估的数据整合策略能显著改善预测准确性。对于半衰期预测,单独训练异质数据集(Fan等人数据)时R2达到0.76,而盲目整合所有数据源时性能大幅下降。类似地,对于清除率预测,排除异质数据集(TDC)后,其他数据集的整合模型性能得到提升。这些结果强调了在数据整合前进行一致性评估的重要性。
数据标准化策略的局限性
研究人员还评估了数据标准化(使用RobustScaler)对模型性能的影响。虽然标准化使所有数据集获得了一定的预测能力(R2>0),但性能仍显著低于智能整合策略(p<0.001)。这表明,对于由化学空间差异驱动的分布错位,标准化可能不足以解决根本问题。
研究结论与意义
本研究通过系统性的数据一致性评估,揭示了公共ADME数据集中存在的显著分布错位和注释不一致问题。AssayInspector工具包为研究人员提供了一种有效的方法来识别这些问题,并指导智能数据整合决策。研究结果表明,盲目整合异质数据源会引入噪声并降低模型性能,而基于一致性评估的整合策略能显著提升预测准确性和模型泛化能力。
该研究的发现对药物发现领域具有重要启示:首先,强调了数据质量评估在机器学习应用中的关键作用;其次,为跨源数据整合提供了实用指导原则;最后,AssayInspector工具的公开可用性(https://github.com/chemotargets/assay_inspector)将促进更可靠、可重复的ADME预测模型发展。在联邦学习等复杂场景中,这种数据一致性评估方法尤为重要,可确保跨异质数据源的有效知识迁移。
未来研究可探索更先进的数据整合策略,如多任务学习、迁移学习和模型无关元学习(MAML),以更好地处理数据集间的分布差异。同时,需要建立更全面反映体内药代动力学背景的基准数据集,推动ADME预测模型向更可靠、更适用的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号