在药物研发的早期阶段,准确预测化合物的药代动力学(ADME)性质是决定候选药物成败的关键。然而,研究人员面临着一个严峻挑战:公共ADME数据集存在显著的异质性和分布错位问题。这些数据差异可能源于实验条件、化学空间覆盖范围等多种因素,导致机器学习模型在整合不同来源数据时预测准确性大打折扣。以治疗数据共享平台(TDC)为代表的基准数据集与黄金标准源之间存在显著差异,这种数据不一致性已成为制约ADME预测模型发展的瓶颈。更令人担忧的是,即使进行数据标准化处理,也未必能改善预测性能,有时甚至会产生反效果。这一现象凸显了在建模前进行严格数据一致性评估(DCA)的迫切必要性。为了解决这一挑战,Raquel Parrondo-Pizarro等研究人员在《Journal of Cheminformatics》上发表了他们的最新研究成果。他们开发了AssayInspector——一个模型无关的Python工具包,专门用于在机器学习流程之前系统评估数据集的一致性。该工具通过统计摘要、可视化图表和诊断报告,帮助识别异常值、批次效应和数据集间的不一致性。研究人员聚焦于两个关键的ADME参数:清除率(Clearance,表示药物从血液中被清除的速率)和半衰期(Half-life,指药物活性成分浓度降至峰值一半所需的时间)。通过分析5个半衰期数据集和7个清除率数据集,他们发现了令人惊讶的结果。例如,Fan等人2024年发布的半衰期数据集(被ADMETlab 3.0等平台作为主要数据源)与其他数据集存在显著分布差异,其半衰期值明显偏低。进一步分析表明,这种差异可能源于该数据集主要包含临床前化合物,而其他数据集则富含已批准药物。更为关键的是,TDC平台中的清除率基准数据集(来自阿斯利康的体外筛选数据)与其他基于人体内数据的数据集存在系统性差异。对于相同分子,TDC报告的清除率值显著高于其他数据集,这种不一致性很可能源于体外实验条件(如人肝微粒体)无法完全模拟体内复杂的生物环境。为了验证这些发现的实际影响,研究人员训练了多种机器学习模型(包括XGBoost、支持向量机、随机森林和K近邻算法),比较了不同数据整合策略下的预测性能。结果明确显示,盲目整合所有数据源会导致预测性能下降,而根据AssayInspector的推荐进行智能整合(如同质数据集整合、异质数据集单独建模)能显著提高模型性能。关键技术方法研究团队开发了AssayInspector工具包,其主要技术方法包括:1)使用ECFP4指纹和RDKit描述符进行分子表征;2)应用Kolmogorov-Smirnov检验和卡方检验进行分布比较;3)采用UMAP降维技术可视化化学空间覆盖;4)建立交叉验证框架防止数据泄露;5)使用hyperopt进行超参数优化。所有ADME数据集均经过严格的分子标准化和去重复处理,确保数据质量。数据一致性分析结果