机器学习驱动的弥漫性大B细胞淋巴瘤液液相分离相关预后特征研究

《British Journal of Haematology》：Machine learning-driven investigation on liquid–liquid phase separation-related prognostic signature in diffuse large B-cell lymphoma

【字体：大中小】 时间：2026年06月09日 来源：British Journal of Haematology 3.8

编辑推荐：

　　摘要：弥漫性大B细胞淋巴瘤（Diffuse large B-cell lymphoma, DLBCL）是最常见的侵袭性非霍奇金淋巴瘤（non-Hodgkin lymphoma, NHL），以显著的异质性为特征。本研究旨在建立一种液液相分离（Liquid–liq

摘要：弥漫性大B细胞淋巴瘤（Diffuse large B-cell lymphoma, DLBCL）是最常见的侵袭性非霍奇金淋巴瘤（non-Hodgkin lymphoma, NHL），以显著的异质性为特征。本研究旨在建立一种液液相分离（Liquid–liquid phase separation, LLPS）相关的预后模型，以改进风险分层。研究人员分析了四个队列（n＝768）的转录组和临床数据，应用多种机器学习算法识别预后相关的液液相分离相关基因（LLPS-related genes, LRGs），并构建了含6个LRGs的模型。模型性能通过生存分析、时间依赖性受试者工作特征（time-dependent receiver operating characteristic, ROC）曲线及多变量建模进行评估。研究人员进一步探索了风险组间潜在的生物学和微环境差异。该6-LRG模型在多个数据集中将患者分为总生存（Overall survival, OS）显著不同的组别，1年曲线下面积（Area under curve, AUC）为0.661–0.820，3年AUC为0.683–0.779，5年AUC为0.711–0.807。6-LRG模型独立于已建立的临床变量，整合进列线图（Nomogram）后可改善风险预测。两组间观察到不同的生物学和免疫特征。6-LRG模型可为DLBCL提供额外的预后信息，并为潜在生物学机制生成研究假说。但在实施前，需在更大人群中进行前瞻性验证。

论文解读：机器学习驱动的弥漫性大B细胞淋巴瘤液液相分离相关预后特征研究

一、研究背景与意义

弥漫性大B细胞淋巴瘤（Diffuse large B-cell lymphoma, DLBCL）是最常见的侵袭性非霍奇金淋巴瘤（non-Hodgkin lymphoma, NHL）。以利妥昔单抗、环磷酰胺、阿霉素、长春新碱和泼尼松（R-CHOP）为主的一线方案可使部分患者获得长期缓解，但受分子与临床异质性影响，疗效差异显著。传统临床指标如国际预后指数（International Prognostic Index, IPI）及NCCN-IPI在R-CHOP时代预后价值有限。液液相分离（Liquid–liquid phase separation, LLPS）是近年发现的细胞内重要组织机制，可通过形成液滴状结构调控转录、修饰及DNA损伤应答，并与肿瘤进展、微环境重塑及耐药相关。LLPS相关基因（LLPS-related genes, LRGs）在实体瘤中有一定预后价值，但在DLBCL中尚未系统研究。为此，研究人员开展本研究，利用多队列数据与机器学习构建6-LRG预后模型，以优化风险分层并探索潜在生物学机制。论文发表于《British Journal of Haematology》。

二、主要关键技术方法

研究人员回顾性纳入多个数据来源：训练集GSE11318，验证集GSE10846、GSE53786及中山大学肿瘤防治中心（Sun Yat-sen University Cancer Center, SYSUCC）内部队列，共768例伴完整临床随访的DLBCL样本；另用GSE56315进行基因发现。从DrLLPS数据库获取3611个LRGs。首先进行差异表达分析筛选LRGs，随后以单变量Cox回归（p<0.001）初筛，再评估117种机器学习组合（如LASSO、岭回归、弹性网络、逐步Cox、CoxBoost、plsRcox、SuperPC、生存支持向量机、梯度提升机、随机生存森林RSF及其串联流程），选择在外部验证集中平均C-index最高的RSF+StepCox[both]方案确定6个LRGs。风险评分由Cox比例风险模型计算，固定截断值-5.497分层。效能评价采用Kaplan–Meier分析、时间依赖性ROC及多变量Cox回归；在此基础上整合年龄、分期构建列线图。进一步开展富集分析、免疫微环境、单细胞转录组推断、突变谱、药物敏感性及分子对接等探索性分析。

三、研究结果

INTRODUCTION

DLBCL发病率高且异质性强，标准R-CHOP方案部分患者出现难治/复发。LLPS参与多种癌生物学过程，LRG特征在实体瘤有预后价值，但在DLBCL中作用不清，故有必要系统探究。

METHODS

Data acquisition

分析五个回顾性数据集（含三个GEO独立集、一个GEO基因发现集及一个SYSUCC内部集），最终四队列768例具生存数据。入组标准：病理确诊DLBCL，总生存>1月。LRGs取自DrLLPS数据库，单细胞RNA-seq数据来自heiData。

Samples and RNA microarray profiling

61例治疗初诊DLBCL福尔马林固定石蜡包埋（FFPE）样本，经Hans算法分型细胞起源（Cell of origin, COO）。总RNA提取后使用Affymetrix Human Genome U133 Plus 2.0芯片，Raw CEL文件以RMA算法进行背景校正、log₂转换及分位数归一化。

Screening the prognostic LLPS-related genes

单变量Cox初筛后，评估10种机器学习生存算法组合的117条流程，以外部验证平均C-index最高为优选原则，最终选RSF+StepCox[both]。

Risk scoring model construction

Cox模型得出各LRG系数，以surv_cutpoint确定最优截断值-5.497，高于此值为高危组，低于为低危组，截断值跨队列固定。

Evaluation of the risk scoring model

在训练集及GSE10846、GSE53786、SYSUCC中，用KM曲线和时间依赖性ROC评估预测力。

Development of nomogram signature

将6-LRG风险评分与临床指标行单/多变量Cox，筛选独立因子构建列线图并验证。

Exploratory biological analyses

通过功能富集、微环境、单细胞、突变、药敏及分子对接探索风险分层潜在机制。

RESULTS

Identifying the prognostic LLPS-related genes

以GSE56315做正常与DLBCL差异分析，调整p<0.05且|log₂FC|>0.585，得到2313个差异LRGs。RSF+StepCox[both]平均C-index最高，据此选定6个LRGs：DNM1L、PPIF、PELP1、TMOD2、NR3C1、C1orf198。

Constructing the 6-LRGs prognostic model

风险评分＝(-0.4963741×DNM1L)+(0.6652714×PPIF)+(0.4887417×PELP1)+(-0.3526994×NR3C1)+(-0.1424594×TMOD2)+(-0.8219123×C1orf198)。

Evaluation of the 6-LRGs prognostic model

以-5.497分层，训练集GSE11318中高危组OS更差（p<0.0001），1/3/5年AUC分别为0.745、0.779、0.807；GSE53786（p=0.0004）对应AUC为0.719、0.683、0.748；GSE10846（p<0.0001）为0.661、0.707、0.711；SYSUCC（p=0.012）为0.820、0.741、0.773。模型跨队列稳定。

Construction and validation of nomogram model

单/多变量Cox显示年龄、分期及风险评分为独立预后因素（风险评分HR=2.478, 95%CI:1.814–3.386, p<0.001）。以此建列线图预测1–5年生存，时间依赖性ROC的AUC为0.704–0.857，优于单独6-LRG模型。

Biological exploratory analyses

高危与低危组在表达模式、肿瘤微环境、突变谱及药物敏感性上存在显著差异（详见补充材料）。

DISCUSSION

尽管R-CHOP提高DLBCL治愈率，部分仍属难治。传统IPI/NCCN-IPI在R-CHOP时代受限，分子标志物可增强其预测。LLPS参与多癌行为，6-LRGs（DNM1L调控线粒体裂变囊泡动态；PPIF/亲环蛋白D调控线粒体膜通透与蛋白折叠；PELP1结合RNA/SC35参与剪接与核糖体组装；TMOD2调节肌动蛋白丝与膜细胞骨架，大肠癌中有涉及；NR3C1编码糖皮质激素受体，可通过LLPS激活超级增强子促耐药；C1orf198在癌中功能尚不清楚）构成潜在预后标志。时间依赖性ROC与KM显示6-LRG模型及列线图预测稳定，风险评分在多变量中独立，整合列线图提升分层。虽未直接与IPI做头对头比较（部分IPI组分缺如），但风险评分在已有IPI组分之上提供增量信息。若在更大前瞻多中心队列验证，6-LRG可适配qRT-PCR或NanoString面板（兼容FFPE及新鲜活检，成本低于NGS），有望补充现有分层并提示药理靶点。补充讨论详述潜在机制。需注意：全部为回顾性数据，无前瞻验证，人群差异可能影响泛化；以验证集C-index选模型虽减过拟合但略限独立性；入组排除短生存引入 immortal time bias；公共集缺治疗注释可能掩盖临床异质性；LRGs调控微环境及进展的机制待实验阐明。因此6-LRG模型属探索性，临床应用前需大样本前瞻验证。

CONCLUSION

研究人员建立了一个6-LRG预后模型，可在回顾性DLBCL队列中有效分层总生存，并为潜在生物学机制提供假说生成洞见。但该模型需在更大前瞻性队列中验证后方可考虑临床转化。

注：全文根据原文浓缩，去除文献引用标识与图示超链，保留专业术语英文缩写及上下标（如上标^{、下标_{），首次出现术语附简释，作者名与符号依原文保留，避免推测与表格，统一以研究人员指代原文“我们”。}}

热点排行