
-
生物通官微
陪你抓住生命科技
跳动的脉搏
scATD:基于大语言模型的高通量单细胞癌症耐药预测与生物标志物识别框架
【字体: 大 中 小 】 时间:2025年06月13日 来源:Briefings in Bioinformatics 6.8
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)数据中药物敏感性预测的临床高通量需求,开发了scATD(单细胞自适应迁移与蒸馏模型)。该框架通过整合scFoundation和Geneformer等大语言模型(LLM),结合双向自适应实例归一化(Bi-AdaIN)和知识蒸馏技术,实现了无需参数微调的单细胞药物反应预测。实验证明scATD在16个独立数据集中达到最优预测精度(AUROC 0.71-0.95),并通过集成梯度(IG)算法揭示了SFTPC、MSMB等关键耐药基因。该研究为精准肿瘤学提供了高效、可解释的计算工具。
肿瘤异质性和药物耐药性是癌症治疗面临的主要挑战。单细胞RNA测序(scRNA-seq)技术的突破为解析肿瘤细胞异质性提供了新视角,但现有药物敏感性预测模型存在两大瓶颈:一是依赖单细胞数据重新训练导致临床部署效率低下,二是缺乏对耐药机制的可解释性分析。传统方法如scDEAL和SCAD虽然实现了从批量数据到单细胞的迁移学习,但无法满足临床对多患者快速检测的需求。更关键的是,随着参数规模达亿级的大语言模型(LLM)如scFoundation和Geneformer的出现,如何在保持预测精度的同时降低计算成本成为新的挑战。
针对这些问题,东北林业大学与河南大学的研究团队在《Briefings in Bioinformatics》发表了创新性研究。他们开发的scATD框架通过三重技术创新:首先整合LLM特征提取与残差变分自编码器(Res-VAE)实现降维重构;其次采用双向自适应实例归一化(Bi-AdaIN)实现批量-单细胞数据的参数自由迁移;最后通过知识蒸馏将3000维特征压缩至256维,使推理速度提升11倍。研究涉及来自GDSC、CCLE和GEO数据库的1280个癌细胞系、83种药物及14个单细胞数据集,涵盖肺癌、前列腺癌等10种癌症类型。
关键技术包括:1)基于scFoundation/Geneformer的3072维特征提取;2)采用Swish激活函数的Res-VAE预训练;3)双向AdaIN风格迁移;4)最大均值差异(MMD)分布对齐;5)基于TCGA队列的集成梯度(IG)生物标志物分析。
药物潜在知识表征
通过UMAP可视化发现,scFoundation提取的特征在GSE186960等数据集中能清晰区分敏感/耐药细胞簇(轮廓系数0.82 vs 0.68),显著优于Geneformer。Res-VAE重构损失稳定收敛至0.12,证实其有效捕获LLM的潜在表征。
批量到单细胞的药物反应预测
在GSE112274等数据集中,scATD-sf的AUROC达0.95±0.03,较scDEAL提升38%。知识蒸馏模型scATD-sf-dist在GSE140440上的推理时间仅4.06秒,较基线模型提速11倍。值得注意的是,直接使用单细胞标签监督训练的DrugFormer模型在跨患者验证中AUROC波动达0.24-0.95,凸显迁移学习的稳定性优势。
AdaIN作用机制分析
KL散度计算表明,Bi-AdaIN使批量与单细胞数据的特征分布差异降低72%。但在BRCA_RECIST临床数据集测试中,IC50
标签训练的模型对RECIST标准预测性能有限(AUROC 0.58),提示标签定义一致性对迁移效果的关键影响。
患者水平生物标志物
在TCGA LUAD队列中,scFoundation_2022特征值<-0.6时显著促进吉非替尼敏感性预测(IG值=0.42)。基因层面鉴定出SFTPC(surfactant protein C)高表达与良好预后相关(P=8.22×10-10
),其与PLEC的互作模式通过SHAP分析揭示。
单细胞水平生物标志物
前列腺癌患者单细胞数据显示,核糖体蛋白基因RPS6/RPL41在6个患者中排名稳定性达0.74-0.93。零基线实验证实,默认零值会导致基因贡献方向误判,而均值基线能准确反映表达量-耐药性的非线性关系。
该研究通过LLM与自适应迁移的融合,首次实现无需单细胞标签的高通量耐药预测。创新性体现在三方面:1)Bi-AdaIN突破传统迁移学习需重新训练的局限;2)知识蒸馏使大模型能部署在边缘设备;3)多基线IG分析建立可解释性评估新标准。局限性在于临床RECIST标签的迁移效果有待提升,未来可通过多组学整合改善。该框架为单细胞精准医疗提供了兼具效率与透明度的解决方案,其技术路径对其它生物医学LLM应用具有重要借鉴意义。
生物通微信公众号
知名企业招聘