机器学习驱动的弥漫性大B细胞淋巴瘤液液相分离相关预后特征研究

《British Journal of Haematology》:Machine learning-driven investigation on liquid–liquid phase separation-related prognostic signature in diffuse large B-cell lymphoma

【字体: 时间:2026年06月09日 来源:British Journal of Haematology 3.8

编辑推荐:

  摘要:弥漫性大B细胞淋巴瘤(Diffuse large B-cell lymphoma, DLBCL)是最常见的侵袭性非霍奇金淋巴瘤(non-Hodgkin lymphoma, NHL),以显著的异质性为特征。本研究旨在建立一种液液相分离(Liquid–liq

  
摘要:弥漫性大B细胞淋巴瘤(Diffuse large B-cell lymphoma, DLBCL)是最常见的侵袭性非霍奇金淋巴瘤(non-Hodgkin lymphoma, NHL),以显著的异质性为特征。本研究旨在建立一种液液相分离(Liquid–liquid phase separation, LLPS)相关的预后模型,以改进风险分层。研究人员分析了四个队列(n=768)的转录组和临床数据,应用多种机器学习算法识别预后相关的液液相分离相关基因(LLPS-related genes, LRGs),并构建了含6个LRGs的模型。模型性能通过生存分析、时间依赖性受试者工作特征(time-dependent receiver operating characteristic, ROC)曲线及多变量建模进行评估。研究人员进一步探索了风险组间潜在的生物学和微环境差异。该6-LRG模型在多个数据集中将患者分为总生存(Overall survival, OS)显著不同的组别,1年曲线下面积(Area under curve, AUC)为0.661–0.820,3年AUC为0.683–0.779,5年AUC为0.711–0.807。6-LRG模型独立于已建立的临床变量,整合进列线图(Nomogram)后可改善风险预测。两组间观察到不同的生物学和免疫特征。6-LRG模型可为DLBCL提供额外的预后信息,并为潜在生物学机制生成研究假说。但在实施前,需在更大人群中进行前瞻性验证。
论文解读:机器学习驱动的弥漫性大B细胞淋巴瘤液液相分离相关预后特征研究
一、研究背景与意义
弥漫性大B细胞淋巴瘤(Diffuse large B-cell lymphoma, DLBCL)是最常见的侵袭性非霍奇金淋巴瘤(non-Hodgkin lymphoma, NHL)。以利妥昔单抗、环磷酰胺、阿霉素、长春新碱和泼尼松(R-CHOP)为主的一线方案可使部分患者获得长期缓解,但受分子与临床异质性影响,疗效差异显著。传统临床指标如国际预后指数(International Prognostic Index, IPI)及NCCN-IPI在R-CHOP时代预后价值有限。液液相分离(Liquid–liquid phase separation, LLPS)是近年发现的细胞内重要组织机制,可通过形成液滴状结构调控转录、修饰及DNA损伤应答,并与肿瘤进展、微环境重塑及耐药相关。LLPS相关基因(LLPS-related genes, LRGs)在实体瘤中有一定预后价值,但在DLBCL中尚未系统研究。为此,研究人员开展本研究,利用多队列数据与机器学习构建6-LRG预后模型,以优化风险分层并探索潜在生物学机制。论文发表于《British Journal of Haematology》。
二、主要关键技术方法
研究人员回顾性纳入多个数据来源:训练集GSE11318,验证集GSE10846、GSE53786及中山大学肿瘤防治中心(Sun Yat-sen University Cancer Center, SYSUCC)内部队列,共768例伴完整临床随访的DLBCL样本;另用GSE56315进行基因发现。从DrLLPS数据库获取3611个LRGs。首先进行差异表达分析筛选LRGs,随后以单变量Cox回归(p<0.001)初筛,再评估117种机器学习组合(如LASSO、岭回归、弹性网络、逐步Cox、CoxBoost、plsRcox、SuperPC、生存支持向量机、梯度提升机、随机生存森林RSF及其串联流程),选择在外部验证集中平均C-index最高的RSF+StepCox[both]方案确定6个LRGs。风险评分由Cox比例风险模型计算,固定截断值-5.497分层。效能评价采用Kaplan–Meier分析、时间依赖性ROC及多变量Cox回归;在此基础上整合年龄、分期构建列线图。进一步开展富集分析、免疫微环境、单细胞转录组推断、突变谱、药物敏感性及分子对接等探索性分析。
三、研究结果
INTRODUCTION
DLBCL发病率高且异质性强,标准R-CHOP方案部分患者出现难治/复发。LLPS参与多种癌生物学过程,LRG特征在实体瘤有预后价值,但在DLBCL中作用不清,故有必要系统探究。
METHODS
Data acquisition
分析五个回顾性数据集(含三个GEO独立集、一个GEO基因发现集及一个SYSUCC内部集),最终四队列768例具生存数据。入组标准:病理确诊DLBCL,总生存>1月。LRGs取自DrLLPS数据库,单细胞RNA-seq数据来自heiData。
Samples and RNA microarray profiling
61例治疗初诊DLBCL福尔马林固定石蜡包埋(FFPE)样本,经Hans算法分型细胞起源(Cell of origin, COO)。总RNA提取后使用Affymetrix Human Genome U133 Plus 2.0芯片,Raw CEL文件以RMA算法进行背景校正、log2转换及分位数归一化。
Screening the prognostic LLPS-related genes
单变量Cox初筛后,评估10种机器学习生存算法组合的117条流程,以外部验证平均C-index最高为优选原则,最终选RSF+StepCox[both]。
Risk scoring model construction
Cox模型得出各LRG系数,以surv_cutpoint确定最优截断值-5.497,高于此值为高危组,低于为低危组,截断值跨队列固定。
Evaluation of the risk scoring model
在训练集及GSE10846、GSE53786、SYSUCC中,用KM曲线和时间依赖性ROC评估预测力。
Development of nomogram signature
将6-LRG风险评分与临床指标行单/多变量Cox,筛选独立因子构建列线图并验证。
Exploratory biological analyses
通过功能富集、微环境、单细胞、突变、药敏及分子对接探索风险分层潜在机制。
RESULTS
Identifying the prognostic LLPS-related genes
以GSE56315做正常与DLBCL差异分析,调整p<0.05且|log2FC|>0.585,得到2313个差异LRGs。RSF+StepCox[both]平均C-index最高,据此选定6个LRGs:DNM1L、PPIF、PELP1、TMOD2、NR3C1、C1orf198。
Constructing the 6-LRGs prognostic model
风险评分=(-0.4963741×DNM1L)+(0.6652714×PPIF)+(0.4887417×PELP1)+(-0.3526994×NR3C1)+(-0.1424594×TMOD2)+(-0.8219123×C1orf198)。
Evaluation of the 6-LRGs prognostic model
以-5.497分层,训练集GSE11318中高危组OS更差(p<0.0001),1/3/5年AUC分别为0.745、0.779、0.807;GSE53786(p=0.0004)对应AUC为0.719、0.683、0.748;GSE10846(p<0.0001)为0.661、0.707、0.711;SYSUCC(p=0.012)为0.820、0.741、0.773。模型跨队列稳定。
Construction and validation of nomogram model
单/多变量Cox显示年龄、分期及风险评分为独立预后因素(风险评分HR=2.478, 95%CI:1.814–3.386, p<0.001)。以此建列线图预测1–5年生存,时间依赖性ROC的AUC为0.704–0.857,优于单独6-LRG模型。
Biological exploratory analyses
高危与低危组在表达模式、肿瘤微环境、突变谱及药物敏感性上存在显著差异(详见补充材料)。
DISCUSSION
尽管R-CHOP提高DLBCL治愈率,部分仍属难治。传统IPI/NCCN-IPI在R-CHOP时代受限,分子标志物可增强其预测。LLPS参与多癌行为,6-LRGs(DNM1L调控线粒体裂变囊泡动态;PPIF/亲环蛋白D调控线粒体膜通透与蛋白折叠;PELP1结合RNA/SC35参与剪接与核糖体组装;TMOD2调节肌动蛋白丝与膜细胞骨架,大肠癌中有涉及;NR3C1编码糖皮质激素受体,可通过LLPS激活超级增强子促耐药;C1orf198在癌中功能尚不清楚)构成潜在预后标志。时间依赖性ROC与KM显示6-LRG模型及列线图预测稳定,风险评分在多变量中独立,整合列线图提升分层。虽未直接与IPI做头对头比较(部分IPI组分缺如),但风险评分在已有IPI组分之上提供增量信息。若在更大前瞻多中心队列验证,6-LRG可适配qRT-PCR或NanoString面板(兼容FFPE及新鲜活检,成本低于NGS),有望补充现有分层并提示药理靶点。补充讨论详述潜在机制。需注意:全部为回顾性数据,无前瞻验证,人群差异可能影响泛化;以验证集C-index选模型虽减过拟合但略限独立性;入组排除短生存引入 immortal time bias;公共集缺治疗注释可能掩盖临床异质性;LRGs调控微环境及进展的机制待实验阐明。因此6-LRG模型属探索性,临床应用前需大样本前瞻验证。
CONCLUSION
研究人员建立了一个6-LRG预后模型,可在回顾性DLBCL队列中有效分层总生存,并为潜在生物学机制提供假说生成洞见。但该模型需在更大前瞻性队列中验证后方可考虑临床转化。

:全文根据原文浓缩,去除文献引用标识与图示超链,保留专业术语英文缩写及上下标(如上标、下标),首次出现术语附简释,作者名与符号依原文保留,避免推测与表格,统一以研究人员指代原文“我们”。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号