基于UMAP聚类分割的AI模型在癌症细胞系虚拟筛选中性能评估新方法

【字体: 时间:2025年06月11日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  本研究针对虚拟筛选(VS)中传统数据分割方法(如随机分割、骨架分割和Butina聚类)高估AI模型性能的问题,提出基于UMAP的聚类分割方法。通过60个NCI-60细胞系数据集、4种AI模型(LR/RF/Transformer-CNN/GEM)和8400次模型验证,证实UMAP分割能更真实反映VS库的化学多样性,显著降低模型性能高估现象。该研究为分子属性预测提供了更严谨的评估框架,并揭示ROC AUC在VS应用中的局限性。

  

在药物发现领域,虚拟筛选(VS)已成为加速早期药物研发的关键技术。然而,当前人工智能(AI)模型在实验室验证中表现优异,却在真实药物筛选中屡屡受挫——这一现象被Pedro J. Ballester团队称为"AI药物发现鸿沟"。问题的核心在于评估体系:传统的数据分割方法如随机分割和骨架分割(scaffold split),会让训练集和测试集包含结构相似的分子,导致模型性能被严重高估。当这些模型面对真实药物库中完全陌生的化学结构时,预测能力便急剧下降。

为破解这一困局,来自Imperial College London的研究团队在《Journal of Cheminformatics》发表突破性研究。他们创新性地采用UMAP(Uniform Manifold Approximation and Projection)聚类分割方法,对包含33,118个分子的NCI-60癌症细胞系数据集进行重构,并系统比较了四种分割方法(random/scaffold/Butina/UMAP)下四种AI模型(线性回归LR、随机森林RF、Transformer-CNN和几何增强分子表示GEM)的性能差异。研究揭示:传统方法严重高估模型性能,而UMAP分割能更真实模拟药物筛选场景,为AI药物发现建立了更可靠的评估基准。

关键技术方法包括:1)从NCI-60项目获取60种癌症细胞系的pGI50
数据;2)采用七折交叉验证比较四种数据分割策略;3)使用Morgan指纹(256位)和7种理化描述符作为分子特征;4)评估GEM等四种模型在回归和分类任务中的表现;5)创新性地以排名前100的预测分子作为阳性样本,模拟真实VS场景。

UMAP分割创造更真实的评估环境
研究团队通过t-SNE可视化证实,UMAP分割的测试集分子分布与真实药物库(ZINC20和FDA批准药物)最为接近。定量分析显示,UMAP分割测试分子与训练集的平均最大Tanimoto相似度仅0.375,显著低于随机分割(0.717)和骨架分割(0.625)。这种强分布偏移使UMAP成为评估模型泛化能力的"试金石"。

骨架分割的认知误区被打破
通过分析IGROV1细胞系数据,研究发现骨架分割存在严重缺陷:苯环和吡啶环等仅相差一个原子的骨架被分到不同集合,导致结构高度相似的分子(如伏立诺他和吡咯酰胺)出现在训练集和测试集。这解释了为何骨架分割的性能评估仍显乐观。

GEM展现真实场景优势
在UMAP分割的严苛测试下,GEM模型以67%的命中率(hit rate)显著优于RF(43%)和LR(随机水平)。值得注意的是,在传统分割中表现优异的RF模型,在UMAP分割下性能骤降50%,验证了传统评估的误导性。Transformer-CNN表现居中,显示其处理复杂关系的潜力。

ROC AUC的适用性争议
研究统计300组预测结果发现,ROC AUC与命中率的相关系数仅0.368,证明这一常用指标无法反映VS最关注的早期识别性能。作者强调命中率等早期识别指标才应作为VS的核心评估标准。

这项研究的意义在于:1)建立了首个能真实反映VS挑战的评估框架;2)揭示了当前AI药物发现成果可能被严重高估;3)为万亿级化合物库(如ZINC20)的筛选提供了可靠评估工具;4)推动领域从"追求高ROC AUC"转向"关注早期识别性能"。正如研究者指出,UMAP分割不仅适用于VS,也将提升其他分子属性预测任务的评估严谨性。未来工作需要将这一框架扩展到更大规模的化学空间,并探索融合多维度分子特征的聚类方法,以进一步逼近真实药物发现的复杂性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号