基于外周血多模态免疫特征与交叉注意力机制(CAMFormer)的癌症风险无创预测新策略

【字体: 时间:2025年10月08日 来源:BMC Cancer 3.4

编辑推荐:

  本研究针对癌症风险预测中复杂免疫互作难以捕捉及组织活检侵入性强的问题,开发了基于交叉注意力机制的多模态Transformer模型(CAMFormer),整合外周血mRNA表达、免疫细胞频率与TCR多样性指数,实现了无创、高精度的早期癌症预测(AUC=0.92)。该研究为癌症早期筛查提供了新思路,并为个性化免疫治疗研究提供了重要参考。

  
癌症的早期准确预测一直面临巨大挑战,这主要源于免疫系统内部复杂且多层次的相互作用。传统组织活检不仅具有侵入性,而且难以进行大规模或重复性评估。相比之下,外周血作为一种微创且易于获取的样本,为免疫状态分析提供了极具吸引力的替代方案。然而,现有的基于外周血的研究多聚焦于单一维度的指标,如CD8+ T细胞频率或TCR克隆性,未能充分利用其多模态特性来全面捕捉跨尺度的免疫调控机制。传统机器学习方法在处理高维、异质性数据以及建模模态间非线性交互方面存在局限。为了应对这些挑战,发表在《BMC Cancer》上的这项研究提出了一种名为CAMFormer的深度学习框架,旨在通过整合外周血衍生的多模态免疫特征,实现精确、非侵入性的早期癌症风险预测。
本研究主要利用了来自欧洲基因组-表型组存档(EGA, accession number EGAD50000000414)的797例外周血白细胞bulk RNA-seq样本,包括376名健康捐赠者和421名癌症患者。关键技术方法包括:使用Kallisto进行转录本定量(参考基因组GRCh38)以获取mRNA表达矩阵(重点关注17个免疫相关基因);使用CIBERSORTx(LM22特征矩阵)对样本进行免疫细胞反卷积以获取免疫细胞频率;使用MiXCR处理TCR测序数据并利用R包immunarch计算TCR多样性指数(逆辛普森指数);最终通过基于交叉注意力机制的多模态Transformer模型(CAMFormer)整合这三种特征进行癌症状态预测。
数据加工 (Data processing)
研究人员从批量RNA测序数据中成功提取了三种关键免疫特征。mRNA表达矩阵通过Kallisto量化获得,并聚焦于之前研究中被鉴定出的17个与免疫循环密切相关的基因(如HSP90B1, CD1C, CXCR5)。免疫细胞频率通过CIBERSORTx工具和LM22特征矩阵反卷积得到22种免疫细胞亚型的相对比例。为进一步筛选关键特征,研究采用L1正则化逻辑回归(L1-regularized logistic regression)进行特征选择,最终确定了7种对癌症状态预测最重要的免疫细胞类型:初始B细胞(B cells naive)、记忆B细胞(B cells memory)、γδ T细胞(T cells gamma delta)、静息记忆CD4+ T细胞(T cells CD4 memory resting)、初始CD4+ T细胞(T cells CD4 naive)、M0巨噬细胞(Macrophages M0)和嗜酸性粒细胞(Eosinophils)。TCR多样性指数通过对T细胞受体β链(TRB)序列进行分析,使用MiXCR进行序列处理并用逆辛普森指数(Inverse Simpson Index)量化。统计分析显示,癌症患者的TCR多样性显著低于健康个体(p = 2.4e-16)。
CAMFormer
研究核心是提出了CAMFormer模型,这是一个基于交叉注意力机制(cross-attention mechanism)的多模态Transformer架构,用于有效整合mRNA表达(17维)、免疫细胞频率(7维)和TCR多样性指数(1维)。模型首先通过线性层将各模态特征映射到统一的64维嵌入空间。其核心是分层交叉注意力模块,该模块以循环方式执行交叉注意力操作:(1)细胞特征关注mRNA特征;(2)mRNA特征关注TCR特征;(3)TCR特征关注细胞特征。此循环在三个堆叠层中重复,以实现跨模态的多级信息传播。最终,融合后的表征被输入一个全连接分类器进行癌症预测。
模型性能与可解释性分析 (Model performance and interpretability analysis)
在五折交叉验证(five-fold cross-validation)下,CAMFormer在验证集上达到了0.92的AUC(Area Under the Curve)和0.85的F1-score,显著优于单模态或双模态融合方法以及其他基线模型(如TabPFN、LightGBM和MLP)。结果表明,多模态融合与交叉注意力机制有效提升了分类性能与泛化能力。
通过SHAP(SHapley Additive exPlanations)进行的特征贡献分析显示,TCR多样性指数、基因NT5E和CD40以及静息CD4记忆T细胞是模型决策中最具影响力的特征。此外,TCR多样性指数与模型预测的癌症概率呈显著负相关(Pearson r = -0.65, p = 5.9x10-25),这与癌症患者通常表现出TCR repertoire多样性降低的已知生物学现象一致。
消融实验 (Ablation study)
消融实验证实了交叉注意力机制和多模态整合的必要性。与仅使用自注意力(Self-Attention)或简单拼接(Concatenation)的方法相比,完整的CAMFormer模型性能最优(AUC提高3-4%)。在双模态组合中,细胞频率与mRNA表达的融合效果最好(AUC=0.89),但仍低于三模态融合,证明了TCR多样性指数提供的互补信息不可或缺。
结论与讨论
该研究成功开发了CAMFormer,一个利用外周血多模态免疫特征进行癌症预测的深度学习框架。通过整合转录组、细胞组成和受体多样性三个层面的信息,并利用交叉注意力机制有效捕捉其间的非线性相互作用,该模型实现了高精度的癌症风险无创评估。研究结果凸显了利用易于获取的外周血资源进行全面免疫状态分析的巨大潜力。
该研究的重要意义在于:首先,它提供了一种微创、可扩展的癌症早期检测新策略,有望应用于大规模筛查和动态监测。其次,所采用的多模态深度学习框架为解析复杂生物系统的跨尺度相互作用提供了方法论上的参考。最后,模型识别出的关键免疫特征(如特定的免疫细胞亚群、基因及TCR多样性)为了解癌症相关的免疫失调机制提供了新的生物学见解,对未来开发个性化的免疫治疗策略具有指导意义。
研究的局限性包括样本量相对较小,以及使用的批量RNA测序无法解析稀有细胞亚群。未来工作可纳入纵向采样和高分辨率技术(如单细胞RNA测序)以进一步提升模型的生物学可解释性和临床适用性。总之,这项研究为推动基于外周血的免疫谱分析在精准医疗中的应用迈出了重要一步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号