
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CLCluster:基于多组学数据与选择性剪接的癌症亚型冗余减少对比学习聚类方法
【字体: 大 中 小 】 时间:2025年04月17日 来源:Molecular Therapy Nucleic Acids 6.5
编辑推荐:
本文推荐一种创新的癌症亚型聚类方法CLCluster,首次整合选择性剪接(AS)与拷贝数变异(CNV)、甲基化、基因表达、miRNA等多组学数据,通过冗余减少对比学习(contrastive learning)和均值漂移(mean-shift)聚类,在33种癌症中实现高精度亚型划分。研究证实AS数据显著提升模型预后预测能力(C-index>0.7),鉴定2,921个生存相关AS事件,并发现29个由异常剪接产生的抗癌肽(ACPs),为癌症靶向治疗提供新视角。
方法创新:CLCluster算法突破
研究团队开发的CLCluster模型创新性地采用冗余减少对比学习框架,通过高斯噪声数据增强和变分自编码器(VAE)提取特征,其损失函数使交叉相关矩阵逼近单位矩阵,避免传统对比学习的模型坍塌问题。结合均值漂移聚类实现自动类别划分,在TCGA 33种癌症10,998例样本中,性能指标显著优于SNF、iCluster等7种主流算法(Silhouette评分提升23%,DBI降低31%)。
关键发现:AS数据增强预后预测
通过消融实验证实,引入AS数据使27种癌症亚型的预后差异显著性提升(-log10(p)中位数从2.1增至3.8)。在胰腺癌(PAAD)中鉴定65个亚型相关AS事件,其中ARFIP1基因外显子4跳跃导致开放阅读框(ORF)框内缺失,与患者生存期显著负相关(p<0.001)。t-SNE可视化显示BRCA等癌种亚型在特征空间呈明显分离。
治疗靶点:从机制到转化
讨论与展望
该研究首次系统证实AS数据对癌症分子分型的增益价值,但部分小样本癌种(如胆管癌CHOL)聚类效能仍有提升空间。未来可探索端到端模型优化和AS靶向药物协同网络。已鉴定的29个ACPs为肽类药物开发提供新线索,其中6个靶点(如CXCR4)与现有疗法存在协同潜力。数据与代码已开源,推动精准肿瘤学发展。
生物通微信公众号
知名企业招聘