
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于药物响应相关性对比学习的无监督细胞系嵌入模型构建及其在癌症研究中的应用
【字体: 大 中 小 】 时间:2025年06月12日 来源:Computational and Structural Biotechnology Journal 4.5
编辑推荐:
本研究针对癌症细胞系药物响应数据异质性和碎片化问题,创新性地提出基于对比学习的无监督深度模型,通过整合CTD2 、PRISM和GDSC等多源药物筛选数据,构建了统一的可迁移细胞系嵌入向量。该嵌入显著提升了药物协同性(ZIP/Bliss评分)和生长抑制率(GR)预测性能,并通过SHAP分析揭示了与耐药性相关的关键基因(如CNRIP1、LRATD2)。研究成果为癌症精准治疗提供了新工具,发表于《Computational and Structural Biotechnology Journal》。
在癌症研究和药物开发领域,人类癌细胞系作为重要的临床前模型,其药物响应数据的有效利用一直面临严峻挑战。尽管DepMap、GDSC和PRISM等大型项目积累了海量筛选数据,但不同平台间的检测方法差异(如PRISM的荧光变化vs GDSC的IC50
)、四种协同作用评估标准(HSA/Bliss/ZIP/Loewe)的并存,以及仅55%细胞系具备完整多组学数据等现状,严重阻碍了数据的整合应用。更棘手的是,现有机器学习方法多依赖特定任务的有监督训练,难以泛化到新细胞系或新药组合场景。
针对这一瓶颈,研究人员开发了基于对比学习的无监督嵌入框架。该模型创新性地将1,136个细胞系的药物响应相关性转化为Pearson相关系数(PCC)作为监督信号,通过卷积神经网络(Conv1D)与多头注意力机制(MultiHead Attention)处理19,121维基因表达数据,最终生成1,024维的细胞系嵌入向量。关键技术包括:1)跨数据库整合CTD2
、PRISM和GDSC的1,087,682对细胞系相关性数据;2)采用高斯误差线性单元(GELU)激活的卷积块与残差连接优化特征提取;3)基于梯度解释器(GradientExplainer)的SHAP算法解析关键基因贡献。
研究结果部分,3.1节显示该嵌入成功解耦了组织来源特异性,UMAP可视化呈现跨癌种的功能聚类。3.2节的下游任务验证表明:在340,223组DrugComb数据中,ZIP协同预测的PCC提升至0.854(+0.4%);gCSI数据库的GR值预测PCC更达0.950(+42%)。值得注意的是,皮肤黑色素瘤细胞系(如WM-115)预测性能最佳(p=1.37×10-14
)。3.3节通过SHAP分析发现,贡献度最高的CNRIP1基因与多种癌症相关,而前50位关键基因显著富集于上皮间质转化(EMT)通路(p<0.005),其中KRT17和CD40被DGIdb列为可成药靶点。
讨论部分强调,这是首个基于药物响应相似性构建的细胞系嵌入方法。相较于传统VAE或知识图谱,其优势在于:1)仅需基因表达即可推断新细胞系特征,覆盖了DepMap全部1,673个细胞系;2)通过PCC损失函数保留细微响应差异;3)鉴定的LRATD2(铂类耐药)等基因为耐药机制研究提供新方向。研究团队建议未来整合单细胞测序数据以提升嵌入分辨率,并探索临床样本的应用潜力。该成果为癌症个性化治疗和联合用药策略开发提供了重要计算工具。
生物通微信公众号
知名企业招聘