综述:多组学分析与人工智能驱动的临床可部署风险模型在意义未明的单克隆丙种球蛋白病和冒烟型骨髓瘤中的应用
《Clinical and Experimental Medicine》:Multi-omics profiling and AI-driven clinically deployable risk models in MGUS and smoldering myeloma
【字体:
大
中
小
】
时间:2025年12月09日
来源:Clinical and Experimental Medicine 3.5
编辑推荐:
本综述系统阐述了多组学(基因组学、转录组学、蛋白组学、代谢组学)与人工智能(AI)技术如何革新意义未明的单克隆丙种球蛋白病(MGUS)和冒烟型骨髓瘤(SMM)的风险分层。文章指出传统模型(如IMWG、Mayo Clinic评分)依赖有限临床指标,难以捕捉疾病进展的分子复杂性。通过整合多组学数据和机器学习(ML)算法,新模型能更精准识别高危患者,并揭示关键生物学通路(如MAPK、PI3K-Akt)和分子事件(如1q增益、del(17p))。尽管面临数据标准化、临床部署等挑战,AI驱动策略为个体化监测和早期干预提供了动态框架。
多组学分析与人工智能驱动的临床可部署风险模型在意义未明的单克隆丙种球蛋白病和冒烟型骨髓瘤中的应用
意义未明的单克隆丙种球蛋白病(MGUS)、冒烟型骨髓瘤(SMM)和多发性骨髓瘤(MM)构成了浆细胞疾病的连续谱系。当前的风险分层模型主要基于临床、实验室和细胞遗传学标志物,例如国际骨髓瘤工作组(IMWG)模型关注del(17p)、t(4;14)等高危细胞遗传学异常,梅奥诊所模型则依据血清M蛋白水平和骨髓浆细胞百分比。然而,这些模型难以捕捉疾病进展背后的分子复杂性,限制了其预测准确性。近年来,多组学技术(包括基因组学、转录组学、蛋白组学、代谢组学)的进步为揭示这些疾病的分子驱动因素提供了更深入的见解。人工智能(AI)和机器学习(ML)技术的整合进一步增强了这种理解,为个性化风险预测开辟了新途径。
MGUS的诊断标准是血清M蛋白<3 g/dL,骨髓克隆性浆细胞<10%,且无终末器官损伤证据,其年进展率约为1%。SMM则定义为血清M蛋白≥3 g/dL或骨髓克隆性浆细胞≥10%,但无MM相关的终末器官损伤,其高危亚组的年进展率可达10%-20%。活跃MM的特征是骨髓中克隆性浆细胞显著增殖(≥10%)并伴有终末器官损伤。流行病学显示,MGUS在老年人、男性和非洲裔人群中更为常见,非洲裔人群从MGUS进展为MM的风险更高。现有的风险模型,如IMWG模型、梅奥诊所模型和西班牙PETHEMA模型,虽然对定义广泛的风险类别有用,但存在明显局限性:它们缺乏纵向数据,难以整合新的分子标志物(如基因突变、表观遗传修饰),并且在个体患者水平上的精确度欠佳,常常无法解释疾病进展的异质性。
从MGUS到MM的转化是一个多步骤、多组学的过程。在基因组层面,MGUS的起始遗传病变通常包括超二倍体或免疫球蛋白重链易位(如t(11;14), t(4;14))以及13号染色体缺失等早期事件。进展过程中,肿瘤会积累次级突变(如KRAS/NRAS、BRAF等MAPK通路基因的激活突变)、拷贝数异常(如1q21扩增)以及复杂结构变异。高危基因组特征如TP53缺失(17p-)或双等位基因失活在稳定MGUS中罕见,但在进展病例和明显骨髓瘤中富集。克隆进化在SMM中常遵循分支模式,多个亚克隆竞争,最终恶性亚克隆占据主导并引发症状性疾病。
表观基因组和转录组学变化方面,从正常浆细胞到MGUS再到MM,全局DNA甲基化呈现进行性低甲基化,特别是在增强子和启动子区域。组蛋白修饰景观也发生变化(如增殖基因获得活性标记)。比较MGUS与MM浆细胞的基因表达谱发现,与MYC靶标、E2F信号(细胞周期进展)、NF-κB信号和DNA修复相关的基因在SMM或MM中上调。相反,某些分化标志物和凋亡调节因子可能下调。最近的多组学分析整合了转录组和蛋白组数据,发现MGUS→MM的进展与翻译机器和应激反应通路(如EIF2信号传导和核糖体质量控制)的上调相关,而细胞粘附和表面免疫蛋白在MM中丢失。这些变化表明进展中的克隆转向更高的蛋白质合成状态以支持快速生长,同时脱落表面抗原以潜在地逃避免疫检测。
微环境和免疫因素在疾病进展中起着关键作用。在前驱阶段,免疫系统在一定程度上抑制着克隆浆细胞,例如MGUS患者的T细胞比MM患者的T细胞显示出更强的细胞毒性特征。然而,即使在MGUS阶段,微环境的细微变化也能预示进展。单细胞RNA测序和质谱流式分析揭示了早期改变,如与健康个体相比,MGUS/SMM中衰竭T细胞和调节性T细胞增加,记忆T细胞和树突状细胞群减少。随着疾病进展,骨髓基质细胞也发生共进化:骨髓瘤中的间充质基质细胞获得促炎、促肿瘤的表型(例如分泌高水平的IL-6,一种骨髓瘤细胞的生长因子)。净效应是形成一个允许的生态位,使得恶性浆细胞面临更少的免疫监视并获得更多的生长和存活信号。某些微环境生物标志物具有预测价值,例如SMM中免疫抑制细胞与细胞毒性细胞的比率增加与较短的无进展生存期相关。
代谢和其他改变方面,新兴证据表明前驱状态存在能量代谢和骨相互作用的差异。蛋白组学分析表明MGUS细胞更依赖氧化代谢,而MM细胞则上调糖酵解和线粒体应激通路。此外,与骨微环境的相互作用发生变化,进展性病变更常显示破骨细胞活化和骨破坏,这可能是通过克隆扩增时分泌的RANKL和DKK1等因子介导的。
总之,进展涉及基因组、表观基因组、转录组、蛋白组、代谢组和微环境等多个层面的改变,这种复杂性解释了为什么任何单一的临床标志物都无法进行强预测,也为整合多组学方法以显著改善MGUS/SMM患者风险分层提供了理论依据。在细胞遗传学异常中,1q增益/扩增、del(17p)/TP53失活以及IgH易位(如t(4;14)和t(14;16)) consistently 与较高的进展风险和较差的生存率相关。相比之下,KRAS、NRAS、BRAF、DIS3和FAM46C等基因的许多复发性突变在确诊的MM中非常常见,但它们与进展的关联更具可变性和背景依赖性。新兴的基因组特征,包括高全基因组突变负荷、APOBEC驱动的突变特征、复杂结构事件(如染色体碎裂)以及复合的“MM样”或“基因组MM”评分,似乎能捕捉到真正的恶性生物学特征,并识别出近期转化风险极高的MGUS/SMM病例。
利用不同“组学”的丰富信息需要计算策略来整合多样化的数据类型形成 cohesive 的预测模型。与处理高维数据困难的传统统计方法不同,现代ML和深度学习(DL)算法非常适合识别指示进展风险的复杂多变量模式。整合策略包括早期整合(将不同组学数据直接拼接成一个大特征向量进行建模,简单但可能导致维度灾难)、晚期整合(先为每种数据模态训练单独模型,然后组合其输出,可利用模态特定专业知识但可能忽略组学间交互)以及中间整合(如先对每种组学数据进行降维或嵌入,例如使用主成分分析PCA、自编码器,然后合并这些低维表示进行最终预测)。基于网络的方法(如图神经网络GNN)也越来越受欢迎,它们可以创建多层交互图并传播信息。
降维和特征选择对于处理包含数万个特征的多组学数据集至关重要。无监督技术如PCA和t-SNE可用于可视化和确认样本在分子空间中的分布。更复杂的方法包括变分自编码器(VAE)和其他神经网络嵌入,它们通过学习从瓶颈层重建原始数据来“学习”多组学数据的压缩潜在表示。OmiEmbed框架就是一个 notable 的例子,它使用多组学VAE将高维谱嵌入到低维潜在向量中,该向量仍包含下游任务的相关信息。除了深度学习,经典的特征选择方法如Elastic Net正则化也被用于选择与进展最相关的基因子集。
在模型方面,传统ML方法如随机森林(RF)和支持向量机(SVM)在较小数据集上表现良好,并能提供特征重要性洞察。例如,RF可以通过基尼重要性或信息增益对变量进行排序。研究表明,SVM在MGUS患者常规临床数据上能取得较高准确率。弹性网络回归在MGUS进展预测中也能获得高曲线下面积(AUC)并具有自动基因选择的优势。深度学习模型,如深度神经网络(DNN)、几何图神经网络(GGNN)和带有注意力机制的模型,能够从大数据中学习复杂函数,但通常需要更大的样本量和仔细的验证以避免过拟合。可解释人工智能(XAI)工具,如SHAP和LIME,对于临床部署至关重要,它们可以量化每个特征对个体预测的贡献,增强临床医生的信任度并可能发现新的生物标志物。
性能评估需要严格的验证框架。鉴于MGUS/SMM数据集规模有限,常采用交叉验证和自助法来估计性能而不至于过拟合。理想情况下,模型应在一个队列上训练,并在独立队列(外部验证)上进行测试以评估普适性。常用性能指标包括用于分类的受试者工作特征曲线下面积(AUROC)、固定特异性下的敏感性,以及用于时间事件预测的一致性指数(C-index)或时间依赖性AUC。模型不仅需要统计学意义,还需要临床实用性,即能够清晰区分出需要干预的高危组和可以安全观察的低危组。
基因表达特征和混合模型方面,研究结果表明,当基因表达谱(GEP)与传统标志物结合时,能成为进展风险的强预测因子。例如,Sun等人开发的36基因特征(GS36)能够识别出10年内进展概率超过50%的MGUS患者亚组。当该特征与两个常规实验室指标(游离轻链FLC比率和免疫麻痹状态)结合时,可以定义出“超高危”组。GS36中的基因许多涉及细胞周期调控、蛋白质折叠和未折叠蛋白代谢,与已知的骨髓瘤生物学一致,提供了表面效度。另一个独立研究使用了最初为活跃骨髓瘤预后开发的70基因MyPRS(GEP70)特征,并显示其可以预测哪些MGUS/SMM病例会更快进展。这些研究表明,高危前驱疾病通常已经携带类似于活跃骨髓瘤的转录程序,通过GEP捕捉这种程序可以显著细化风险分层。
在多组学和机器学习模型方面,AI方法通过结合临床变量与基因组和其他分子特征,扩展了经典的MGUS和SMM评分。研究表明,具有“MM样”基因组谱的前驱克隆比生物学惰性的对应克隆具有高得多的短期进展风险。例如,Alberge等人分析了前驱和MM队列的全基因组和全外显子组数据,提出了一个“MM样”基因组评分,将每个病例沿着从MGUS到SMM再到MM的连续进展轴进行定位。Maura等人引入了“基因组MM”和“基因组MGUS”的概念,证明相当一部分SMM和一部分MGUS已经携带具有高进展风险的MM样基因组谱,而大多数MGUS和少数SMM则显示出真正的癌前基因组模式;将这些基因组特征纳入IMWG 2/20/20模型显著改善了进展预测。
在活跃骨髓瘤中的模型作为类比,基于基因表达的风险分层(如GEP70和EMC92特征)已在一些中心成为现实。这些特征识别出生存率显著较差的高危MM患者。它们在MM中的成功为前驱疾病的类似特征铺平了道路。此外,MM中的多组学方法,例如基于知识的图模型整合基因表达、突变和拷贝数数据,改善了结局预测,其原理同样适用于MGUS到MM的进展风险预测。微小残留病(MRD)检测等敏感分子技术的预后价值也提示,未来MGUS风险模型可能整合类似MRD的测量。
尽管研究结果令人鼓舞,但多组学AI风险评分在投入常规临床实践前仍面临显著障碍。
数据异质性和标准化是多组学数据固有的挑战。不同平台、批次效应、样本处理流程的差异可能导致数据不一致。技术标准化(去除批次效应、特征缩放)和生物学协调(确保不同人群的代表性)至关重要。采用参考流程或使用迁移学习来调整模型是可行方案。最终,临床可部署的测试可能需要权衡,使用2-3种关键模态的简约模型可能比需要全基因组测序、转录组学、蛋白组学和代谢组学更易转化。
成本与物流方面,对每位MGUS患者进行全基因组测序和RNA测序在多数环境下成本高昂。解决方案是识别替代标志物或更小的靶向Panel,例如针对已验证基因特征的靶向RNA测序或RT-PCR Panel,或检测高危突变和拷贝数变化的靶向DNA Panel。部署可能从具备基础设施的学术中心开始,逐步扩展。需要进行卫生经济学分析来证明改进的风险分层和早期干预的成本效益。
可解释性与临床医生信任度方面,AI模型需要提供清晰的解释才能获得信赖。输出报告不应只是给出风险分数,还应列出贡献因素(如“高危原因:IgA同种型、极高sFLC比率、1q21扩增、增殖基因表达升高”)。可视化工具、用户教育和多学科协作设计有助于提高接受度。“白盒”模型或从复杂ML模型衍生的简化评分系统可以作为桥梁。
监管与验证障碍方面,多组学AI风险评分可能被归类为医疗器械(SaMD)。获得批准需要证明分析有效性、临床有效性和临床实用性。这可能需要进行前瞻性试验,比较AI指导的管理与标准护理。监管审批通常针对特定算法版本,模型更新可能需要重新审批。遵循TRIPOD、TRIPOD-AI、PROBAST、SPIRIT-AI和CONSORT-AI等标准化框架有助于监管机构和临床医生评估。
隐私与数据共享方面,基因组数据具有独特性,需确保强大的数据加密并遵守HIPAA、GDPR等法规。联邦学习是一种有前景的解决方案,它允许模型在去中心化数据上训练,而无需共享原始患者数据。
工作流程整合要求AI工具与电子健康记录(EHR)和实验室信息系统无缝集成。理想情况下,从医嘱下达、样本采集、数据分析到风险报告生成应实现自动化,并具有合理的周转时间。需要明确定义确认性测试等程序步骤。
不断演变的治疗对模型有效性的影响不容忽视。大多数现有风险模型源于接受历史标准治疗或仅观察的队列。随着高危SMM早期治疗策略(如免疫疗法、双特异性抗体)的应用,疾病自然史发生改变。未来的模型需要定期在当代队列中重新验证和校准,并明确纳入治疗暴露和反应动力学作为特征,实现真正动态的、依赖于治疗条件的风险预测。
构建这样一个框架涉及多个环节。数据采集与处理阶段,MGUS/SMM患者在诊断时(及后续定期)接受标准化的多组学分析,可能包括骨髓抽吸物(用于基因组、转录组分析)和外周血(用于蛋白组/代谢组/免疫细胞分析)。考虑到实际限制,可从聚焦的检测Panel开始,如靶向DNA测序、qPCR基因表达Panel、关键细胞因子/代谢物测量。原始数据经过生物信息学流程(质量控制、标准化、特征提取)处理,同时从EHR提取标准临床数据。整个数据流应尽可能自动化。
AI模型推断是该系统的核心。部署时可能优先选择性能相似但更简单的模型(如梯度提升树模型)。模型处理多组学特征后,输出一个风险评分(如0-1之间的概率值)或风险类别(低/中/高)。同时可生成不确定性估计,以标记预测可靠性较低的情况。
可解释性与报告生成环节,模型耦合一个可解释性模块,将原始预测转化为易于理解的解释。例如,使用SHAP值量化前10个特征的贡献。输出报告应简洁明了,包含风险分数、主要贡献因素及其解释,并将患者风险置于历史数据背景下。报告格式应通过用户反馈优化,并强调其辅助而非替代临床判断的角色。
临床工作流程整合要求系统与医院信息系统集成。医生像开具常规实验室检查一样开具“MGUS AI风险Panel”医嘱,触发后续流程。模型结果生成后,风险报告出现在EHR中,并可配置警报(如高危结果提示转诊专科或考虑治疗)。报告可链接到临床指南建议。如果获得新数据(如随访实验室结果),模型可重新运行以更新风险。
持续学习与更新机制是必要的。在患者同意和隐私保护下,记录所有预测和结局以评估模型准确性。在监管允许下,可实施学习型医疗系统,定期用新积累的数据重新训练模型。由于监管限制,初始部署可能是锁定模型,后续版本随证据积累而发布。联邦学习有助于多中心协作改进模型。
验证与反馈循环即使在部署后也至关重要。包括前瞻性研究(遵循模型建议以观察是否改善结局)和收集临床医生用户反馈。反馈有助于识别模型在特定亚群中的不足,并指导模型和工作流程的 refinement。
构建该系统需要跨学科专业知识(实验室科学家、数据科学家、IT专家、临床医生、患者代表)的协同。通过遵循此框架,目标是创建一个不仅准确、而且具有临床意义和可操作性的风险评分工具,最终实现前驱浆细胞疾病管理的个性化,改善患者结局并优化医疗资源使用。
MGUS和SMM风险分层的未来在于整合单细胞RNA测序、空间转录组学和微生物组分析等先进技术。这些创新有望提供对疾病进展的更深入见解,识别高危亚克隆并追踪肿瘤微环境内的变化。联邦学习的应用可以在保护数据隐私的同时促进多中心协作研究。然而,这些技术的成功部署需要解决数据整合方面的重大挑战,特别是跨不同组学平台的数据。确保多组学数据的标准化和协调对于构建稳健的预测模型至关重要。伦理考量,包括减轻算法偏见和确保AI工具的公平可及性,也必须优先考虑以避免加剧医疗 disparities。随着AI模型的演进,监管框架需要适应以容纳持续学习系统,确保其在临床环境中的安全性和有效性。新兴的基因组评分(如前驱疾病中的MM样评分)和个体化治疗感知模型(如活跃MM中的IRMMa)共同指向一个未来,即MGUS和SMM风险预测既是多组学驱动的,也是治疗条件性的,模型会随着新治疗方法和临床试验数据的出现而不断更新。
本综述全面概述了MGUS和SMM风险分层不断发展的格局,强调了多组学整合和AI驱动模型的变革潜力。通过突出单细胞RNA测序、空间转录组学和联邦学习等先进技术的前景,该工作为实现更个性化和动态的疾病管理方法描绘了清晰的愿景。然而,成功的临床实施需要克服重大挑战,包括跨不同平台的数据整合、解决伦理问题以及调整监管框架以适应不断发展的AI系统。通过仔细关注这些技术和伦理问题,这些创新的整合可以显著提高浆细胞疾病风险评估的精确性和有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号