CLCluster:基于多组学数据与选择性剪接的癌症亚型冗余减少对比学习聚类方法

【字体: 时间:2025年04月17日 来源:Molecular Therapy Nucleic Acids 6.5

编辑推荐:

  本文推荐一种创新的癌症亚型聚类方法CLCluster,首次整合选择性剪接(AS)与拷贝数变异(CNV)、甲基化、基因表达、miRNA等多组学数据,通过冗余减少对比学习(contrastive learning)和均值漂移(mean-shift)聚类,在33种癌症中实现高精度亚型划分。研究证实AS数据显著提升模型预后预测能力(C-index>0.7),鉴定2,921个生存相关AS事件,并发现29个由异常剪接产生的抗癌肽(ACPs),为癌症靶向治疗提供新视角。

  引言:癌症分子分型新维度
癌症作为全球主要致死疾病,其分子异质性导致治疗响应差异显著。传统单组学分析难以全面解析肿瘤机制,而多组学(multi-omics)整合面临数据异质性、维度灾难等挑战。选择性剪接(AS)通过单个基因产生多种蛋白变体,在癌症中呈现类型特异性模式,但既往研究鲜少将其纳入亚型分类体系。

方法创新:CLCluster算法突破
研究团队开发的CLCluster模型创新性地采用冗余减少对比学习框架,通过高斯噪声数据增强和变分自编码器(VAE)提取特征,其损失函数使交叉相关矩阵逼近单位矩阵,避免传统对比学习的模型坍塌问题。结合均值漂移聚类实现自动类别划分,在TCGA 33种癌症10,998例样本中,性能指标显著优于SNF、iCluster等7种主流算法(Silhouette评分提升23%,DBI降低31%)。

关键发现:AS数据增强预后预测
通过消融实验证实,引入AS数据使27种癌症亚型的预后差异显著性提升(-log10(p)中位数从2.1增至3.8)。在胰腺癌(PAAD)中鉴定65个亚型相关AS事件,其中ARFIP1基因外显子4跳跃导致开放阅读框(ORF)框内缺失,与患者生存期显著负相关(p<0.001)。t-SNE可视化显示BRCA等癌种亚型在特征空间呈明显分离。

治疗靶点:从机制到转化

  1. RNA结合蛋白调控网络:发现91个与预后相关的RBP,如RCAN2通过促进TCERG1外显子6跳跃影响嗜铬细胞瘤(PCPG)进展(ρ=0.42,p=0.008);
  2. 药物敏感性差异:基于oncoPredict分析筛选198种亚型敏感药物,其中IGF2BP2靶向药表柔比星对弥漫大B细胞淋巴瘤各亚型IC50差异达5.3倍;
  3. 抗癌肽发现:COL1A1外显子16-21跳跃产生的15肽经ACPredStackL预测具有膜破坏活性,其α螺旋结构域与已知ACPs相似度达72%。

讨论与展望
该研究首次系统证实AS数据对癌症分子分型的增益价值,但部分小样本癌种(如胆管癌CHOL)聚类效能仍有提升空间。未来可探索端到端模型优化和AS靶向药物协同网络。已鉴定的29个ACPs为肽类药物开发提供新线索,其中6个靶点(如CXCR4)与现有疗法存在协同潜力。数据与代码已开源,推动精准肿瘤学发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号