基于联合相似性非负矩阵分解的肿瘤复发多模态关联模式识别新方法

《Briefings in Bioinformatics》:Joint similarity nonnegative matrix factorization model for identification of recurrence-related association patterns in tumor

【字体: 时间:2025年11月04日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对肿瘤复发机制不明确、现有多模态方法忽略通路生物学背景的问题,提出基于相似性网络融合(SNF)和主成分分析(PCA)的联合相似性非负矩阵分解(JSNMF)模型。通过融合病理图像、基因表达和通路评分三模态数据,成功识别出与肉瘤复发相关的细胞特征-基因-通路共模块,发现PAPPA、MDM2、CAMK1D等潜在生物标志物,为肿瘤复发诊断提供了新视角。

  
肿瘤作为一组具有侵袭性生长和组织破坏特征的异质性疾病,术后复发仍是临床面临的严峻挑战。尽管手术切除是主要治疗手段,但放疗通常仅起辅助作用。据统计,术后复发往往需要重复干预,给患者带来沉重经济负担并恶化预后。因此,识别关键复发决定因素并实施及时干预,成为肿瘤学领域迫切需要解决的优先事项。
传统研究多聚焦于肿瘤复发的病理特征或分子生物学机制。例如,Zhang等对171例滑膜肉瘤病例进行统计分析,发现较大初始肿瘤、阳性切除边缘、边缘切除、缺乏辅助治疗等多重因素与较高局部复发率相关。分子层面的研究也发现,L1CAM表达可作为肉瘤复发诊断标志物,ZNF703与STK11组合能预测三阴性乳腺癌复发,PSMA阳性肿瘤血管可作为肾透明细胞癌复发预测指标。然而,这些研究大多孤立分析病理或遗传分子特征,忽视了遗传分子特征与病理组织间的联系,特别是遗传分子过程如何影响病理组织中细胞特征的机制尚不明确。
多模态数据融合算法为探索肿瘤模态数据间的关联提供了新思路。联合非负矩阵分解(JNMF)模型能将多视角数据投影到同一空间,通过共享特征系数提取其间关联。近年来,JNMF模型已在癌症诊断、调控网络、生物标志物挖掘等多个应用场景证实了其可靠性。然而,现有研究存在明显局限:一方面,多数研究仅关注单个遗传分子与图像特征的相关性,忽略了基因在通路或生物过程中的功能背景;另一方面,现有约束JNMF技术常使用现有数据库关联或简单Pearson相关性构建网络正则化约束,未能充分考虑数据本身的生物学关系,可能导致大量假阳性关联。
针对这些挑战,华南农业大学张永伟团队在《Briefings in Bioinformatics》上发表题为"Joint similarity nonnegative matrix factorization model for identification of recurrence-related association patterns in tumor"的研究,提出一种基于任务驱动的联合相似性非负矩阵分解(JSNMF)新模型。该研究首次将肿瘤样本的富集通路信息纳入分析框架,深入探索病理图像与转录组数据在通路或生物过程层面的关联模式。
关键技术方法
研究整合了TCGA数据库的病理图像、转录组和临床数据,以及UCSC数据库的通路评分数据,涵盖肉瘤(SARC)、三阴性乳腺癌(TNBC)和肾透明细胞癌(KIRC)三种肿瘤类型。技术核心包括:(1)基于相似性网络融合(SNF)技术融合三模态数据,以复发事件为标签计算融合矩阵;(2)利用主成分分析(PCA)提取先验知识矩阵,将其作为网络正则化约束融入目标函数;(3)在目标函数中加入稀疏正交约束,提升联合模式搜索效率;(4)采用乘法迭代算法进行矩阵分解,确保模型收敛性。
模型优化与验证
参数优化实验表明,当组分数K=20、先验权重α=0.01、正交约束β=0.01时,JSNMF模型在SARC数据集中的相对误差最小降至0.884。与10种现有算法相比,JSNMF在矩阵分解效果上表现最优,其重构数据与原始数据的相关系数分别为:WSI特征0.907、基因表达0.748、通路评分0.680。特别是在生物学意义挖掘方面,JSNMF发现的共模块中,基于H2的显著基因富集通路与基于H3的显著通路重叠比高达80%(NCI-PID)、57%(Biocarta)和28%(Reactome),显著优于其他对比算法。
临床关联分析
基于基矩阵W的临床特征关联分析发现,在20个W向量中,有10个与临床指标显著相关。其中W1和W20与局部疾病复发呈正相关,W2呈负相关。通过多变量Cox回归构建的风险评分模型(riskscore = -1.544×W3 + 4.242×W8 + 5.128×W11)能够有效区分高低风险组,KM生存分析显示高风险组预后较差。
复发相关共模块分析
共模块2被确定为与肉瘤复发最相关的代表性模块。该模块中鉴定出4个在复发组与对照组间差异显著的细胞特征:细胞核短轴、面积、长短轴比等,复发样本的细胞核面积更小、形态更接近圆形。通路富集分析发现,这些基因显著富集于PI3K/AKT信号通路、MAPK1/MAPK3信号和ERBB4通路等肿瘤相关通路。基因与细胞特征间主要呈显著负相关,表明这些基因在异常细胞中表达上调。
生物标志物识别
从共模块2中鉴定出3个具有良好复发判别能力的基因:PAPPA(AUC=0.719)、MDM2(AUC=0.717)和CAMK1D(AUC=0.705)。基于这三基因构建的逻辑回归模型AUC超过0.85。免疫细胞浸润分析显示,这些基因表达水平与B细胞记忆浸润呈负相关,与初始B细胞和M2型巨噬细胞浸润呈正相关,提示其可能通过调节肿瘤免疫微环境影响复发进程。
研究意义与展望
JSNMF模型的创新性在于首次实现了病理图像、基因表达和通路过程的三模态数据融合,建立了基于SNF和PCA的半监督矩阵分解新范式。通过引入先验知识驱动的网络正则化约束和正交约束,显著提升了矩阵分解性能和生物学可解释性。研究发现的关键共模块和生物标志物,为理解肿瘤复发机制提供了新视角,特别是揭示了遗传分子通过通路过程影响细胞特征的跨模态关联模式。
然而,研究仍存在一定局限性。当前样本量有限,未能全面覆盖所有肿瘤亚型,限制了深入探索JSNMF捕捉不同亚型复发模式变异的能力。此外,JSNMF的先验知识完全源于数据本身,在不同检测技术平台产生的数据集上应用的稳定性有待进一步验证。未来研究将通过扩大样本量和扩展至更多肿瘤亚型,进一步探索JSNMF在肿瘤复发机制研究中的应用潜力。
该研究为多模态数据关联分析提供了新方法,其发现的复发相关模块和生物标志物有望为肿瘤复发诊断和治疗提供新靶点,推动精准医疗在肿瘤复发防治领域的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号