scDrugMap:基于大模型的单细胞药物反应预测基准测试框架

《Nature Communications》:scDrugMap: benchmarking large foundation models for drug response prediction

【字体: 时间:2025年12月12日 来源:Nature Communications 15.7

编辑推荐:

  本文针对癌症治疗中药物耐药性这一关键挑战,研究人员开发了scDrugMap统一框架,首次系统评估了8个单细胞基础模型和2个通用大语言模型在49.5万单细胞数据上的药物反应预测性能。研究发现scFoundation在多数场景下表现最优,UCE在跨数据评估中泛化能力最强,为精准肿瘤学提供了重要的模型选择指导和实用工具平台。

  
癌症治疗领域长期面临着一个严峻挑战:药物耐药性。美国食品药品监督管理局(FDA)批准的85种癌症药物中,中位应答率仅为41%,近半数药物应答率低于40%,三分之二药物的完全应答率不足10%。即使在生物标志物指导的个性化治疗中,应答率也仅为30.6%。更令人担忧的是,耐药性与患者生存率密切相关,例如对KRAS抑制剂的耐药使得非小细胞肺癌患者中位生存期仅6.3个月,胶质母细胞瘤患者诊断后中位生存期仅12-15个月。
单细胞RNA测序(scRNA-seq)技术的出现为解析药物耐药机制带来了革命性机遇。这项技术能够以单细胞分辨率揭示细胞和分子异质性,在非小细胞肺癌中发现雌激素代谢酶高表达与PD-1阻断免疫治疗反应不佳相关,在基底细胞癌中揭示新型T细胞招募而非肿瘤浸润淋巴细胞的复活对PD-1阻断疗法至关重要。然而,scRNA-seq数据的高维度、噪声、变异性和稀疏性,以及不同实验室在样本制备、文库构建和测序平台方面的差异导致的批次效应,都给数据分析和生物学信号提取带来了巨大挑战。
近年来,面向单细胞数据分析的大规模基础模型(Foundation Models)应运而生,如scFoundation、scBERT、scGPT和Geneformer等。这些模型在大规模scRNA-seq数据集上预训练,通过迁移学习和微调,在细胞类型注释、批次效应校正等任务中展现出强大性能。然而,这些基础模型在药物反应预测方面的表现如何,尚未有系统性的评估研究。
为此,佛罗里达大学的研究团队在《Nature Communications》上发表了题为"scDrugMap: benchmarking large foundation models for drug response prediction"的研究论文,开发了scDrugMap统一框架,首次对十种基础模型(包括八种单细胞特异性基础模型和两种通用自然语言模型)进行了系统性基准测试。
研究团队收集了来自60个数据集的495,237个单细胞,涵盖14种癌症类型、3种治疗类型、5种组织类型和21种治疗方案。他们设计了两种评估策略: pooled-data评估(将多个研究的数据合并后进行训练和测试)和cross-data评估(在一个研究上训练,在独立研究上测试)。同时采用两种训练策略:层冻结(layer-freezing)和低秩适应(LoRA)微调。
在pooled-data评估中,scFoundation表现最为出色,在细胞系数据中F1分数达0.971,在肿瘤组织中达0.990。scGPT在黑色素瘤和vemurafenib治疗方案中表现优异。而在cross-data评估中,UCE经过微调后展现出最强的泛化能力,在肿瘤组织中获得0.774的F1分数,在靶向治疗中达0.549,在paclitaxel方案中达0.677。这反映了真实临床场景中模型应用的挑战性。
研究还评估了通用大语言模型GPT4o-mini的零样本推理能力,发现其在大多数场景下表现接近或低于基线水平,最高性能仅在肝癌数据中达到0.690的F1分数,表明缺乏领域特定预训练的通用模型在此任务上存在局限。
在计算可扩展性方面,scFoundation以其编码器-解码器架构、1.212亿参数、3072维输出嵌入以及高效的训练(23.26 it/s)和推理速度(69.98 it/s)脱颖而出,成为性能与效率俱佳的模型。
关键技术方法方面,研究团队从GEO数据库系统收集了60个单细胞数据集,涵盖495,237个人类单细胞转录组。采用统一质量控制和预处理流程,使用Seurat进行数据处理,Harmony校正批次效应。评估了十种基础模型,包括八种单细胞特异性模型和两种通用语言模型,采用pooled-data和cross-data两种评估策略,结合层冻结和LoRA微调两种训练方法,以F1分数、AUROC等指标全面评估模型性能。
模型在主要数据收集中的pooled-data评估
在层冻结训练策略下,scFoundation在细胞系数据中表现最佳(平均F1分数:0.971),而scBERT表现最差(平均F1分数:0.630)。在前列腺癌和胰腺癌中,LLaMa3与scFoundation表现相当。在微调策略下,结果与基于嵌入的方法基本一致,scFoundation在大多数数据集中仍保持最佳,scBERT仍表现最差。与层冻结策略的结果不同,所有模型在微调设置下在各种组织类型中均优于基线模型。
主要数据收集中的跨数据评估
在层冻结训练下,大多数模型在各种组织类型、药物类别、癌症类型和方案中的效果均不如pooled-data评估。在肿瘤组织类型中,scGPT达到0.858的平均F1分数。在微调策略下,UCE在各种类别中表现出相对较强的性能,在肿瘤组织中最高平均F1分数为0.774,在靶向治疗中为0.549,在paclitaxel中为0.677。
药物反应预测的少样本学习
GPT4o-mini在大多数评估设置中表现出有限的预测性能,接近或低于基线水平。该模型的最高性能在肝癌中观察到,平均F1分数为0.690。在各种组织类型中,GPT4o-mini在外周血单核细胞中平均F1分数为0.583,在肿瘤组织中为0.507,在细胞系中为0.479,在骨髓穿刺液中为0.459。
验证数据收集中的模型评估
在层冻结训练方法下,scFoundation在所有类别中表现出最佳性能,包括组织类型(细胞系:0.901;肿瘤组织:0.932;类器官:0.973)、药物类型(靶向治疗:0.946;化疗:0.899;免疫治疗:0.915)和癌症类型。除scFoundation外,scGPT和tGPT在选定类别中也表现出有竞争力的性能。
计算可扩展性
scDrugMap还通过比较其架构、参数数量、输出维度和运行时效率来评估每个基础模型的计算可扩展性。scFoundation采用编码器-解码器架构,参数数量大(1.212亿),输出维度高(3072),训练和推理速度快(分别为23.26 it/s和69.98 it/s),使其成为基准测试中最高效和强大的模型之一。
研究结论表明,scDrugMap首次系统性地评估了基础模型在单细胞药物反应预测中的应用。研究发现,在pooled-data评估中,模型性能更优,而cross-data评估更能反映真实临床条件,但模型性能普遍较低(F1分数大多低于0.8),强调了增强模型鲁棒性和跨研究泛化能力的重要性。scFoundation在多数场景下表现最优,而UCE在跨数据评估中展现出最强的泛化能力。
该研究的重要意义在于为精准肿瘤学提供了重要的模型选择指南,建立了首个单细胞药物反应预测基础模型的基准测试框架,并开发了用户友好的平台工具加速药物发现和转化研究。未来方向包括融入领域特定知识、整合多模态数据、探索混合模型以及结合可解释AI技术,进一步提升基础模型在药物反应预测中的性能和生物学可解释性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号