《HemaSphere》:Application of machine learning in the diagnostic work-up of telomere biology disorders
编辑推荐:
这篇综述创新性地将机器学习(ML)应用于端粒生物学疾病(TBD)的诊断评估。研究通过对140例疑似TBD患者队列进行监督(随机森林)和非监督(K-means聚类)分析,证实了ML模型能有效区分TBD与其他诊断(OD),并成功对17.2%的未明确诊断(UD)病例进行了潜在重分类。端粒长度(TL)和皮肤黏膜异常被确定为关键鉴别特征。此项工作为TBD这一罕见且表型复杂的疾病提供了新的诊断思路,展示了人工智能在改善疑难疾病诊疗路径方面的巨大潜力。
引言
端粒生物学疾病(Telomere Biology Disorders, TBD)是一组由端粒维持相关基因种系突变引起的异质性疾病,其特征是端粒加速缩短,最终导致端粒不稳定/功能障碍。目前已知超过15个基因参与端粒长度(Telomere Length, TL)稳态调节。TBD的临床表现极具异质性,从非常严重到轻微或无症状形式均可出现,这给诊断带来了巨大挑战。根据指南,TBD的诊断需结合提示性的临床表现、缩短的TL以及致病的TBD基因种系变异。然而,仍有15%–40%的TBD患者无法获得明确的分子诊断。意义未明变异(Variants of Uncertain Significance, VUS)的解读进一步增加了诊断的复杂性。本研究首次尝试将机器学习(Machine Learning, ML)这一人工智能(Artificial Intelligence, AI)子领域应用于TBD的诊断工作流程,旨在克服传统诊断方法的局限。
材料与方法
本研究为一项单中心回顾性研究,纳入了1989年至2023年间转诊至意大利G. Gaslini研究所血液科、符合入组标准的140例患者。患者被标记为“TBD”(n=20,有明确的TBD分子诊断)、“其他诊断”(Other Diagnosis, OD, n=27,有明确的先天性疾病包括骨髓衰竭的分子诊断)和“未明确诊断”(Undefined Diagnosis, UD, n=93,无明确分子诊断)。收集了包括人口统计学、临床特征、实验室检查(特别是TL测量)和遗传学数据。TL通过改良的流式荧光原位杂交(Flow-FISH)方法在淋巴细胞和粒细胞中进行测量。变异根据美国医学遗传学与基因组学学院(ACMG)指南进行分类。
机器学习分析
研究采用了两种主要的ML方法:监督学习和非监督学习。
监督分析:在47例有明确分子诊断(20例TBD和27例OD)的患者训练集上构建随机森林(Random Forest)模型。模型经过五折交叉验证和超参数调优。特征重要性通过平均不纯度减少和SHAP(SHapley Additive exPlanations)值进行评估。训练好的模型随后应用于93例UD患者的测试集。
非监督分析:忽略遗传特征,对全部140例患者的临床生化特征进行多重对应分析(Multiple Correspondence Analysis, MCA),将数据投影到欧几里得空间,然后应用K-means算法进行聚类分析。通过轮廓分析、Calinski-Harabasz指数和Davies-Bouldin指数确定最佳聚类数量。最后,分析聚类与分子诊断之间的关联。
结果
队列特征:队列中男性85例,女性55例,中位年龄13.3岁。20例为TBD,27例为OD,93例为UD(其中19例携带TBD基因的VUS)。
监督分析结果:随机森林模型在训练集上对TBD和OD患者的预测准确率分别为75%和96.3%,总体准确率为87.2%。TL < 1st百分位数是最重要的鉴别特征,其次是皮肤黏膜异常、TL < 10th百分位数。将该模型应用于UD组后,预测16/93例患者可能为TBD,77/93例可能为OD,分别占可能重分类诊断的17.2%和82.7%。
非监督分析结果:聚类分析将整个队列分为4个具有显著统计学关联(P = 0.000001)的簇。TBD患者主要集中于簇1和簇2,而OD和UD患者更多分布于簇3和簇4。TL缩短(无论是<1st还是<10th百分位数)在簇1和簇2中更为普遍。对典型TBD特征组合的分析显示,许多组合(如皮肤黏膜异常+肝病±TL缩短、骨髓衰竭(Bone Marrow Failure, BMF)+TL缩短等)完全或主要出现在簇1中。
分析结果交叉验证:监督分析预测为TBD的16例UD患者,在非监督分析中全部位于“TBD簇”(簇1和簇2)中,显示出两种方法的高度一致性。非监督分析还纠正了监督分析中的1例误判,将模型在TBD组的预测性从75%提升至80%。对于携带VUS的患者,监督分析预测5/19为TBD;非监督分析中,这5例加上另外2例VUS(共7/19)位于簇1和簇2。
讨论
本研究首次证明了ML模型在TBD经典诊断流程中的辅助应用价值。监督和非监督分析均证实TL和皮肤黏膜异常是区分TBD与OD的最相关特征。该模型能够对相当比例(17.2%)的未诊断病例进行潜在重分类,提示其可能改善TBD的诊断路径。对于携带VUS的患者,虽然ML分析不能直接确诊,但可以提示需要加强监测和定期更新VUS分类。研究的局限性包括回顾性设计导致的缺失数据、样本量相对较小以及队列中成人比例较低。未来计划通过纳入意大利TBD注册库(Database Italiano Telomeropatie, DIT)和德国亚琛TBD注册库的患者来扩大样本量并进?外部验证。
结论
综合运用监督和非监督ML算法,可以有效地对疑似TBD患者进行特征分析和风险分层。TL是关键的鉴别指标。这种ML方法为TBD及其他罕见疑难疾病的诊断提供了新的途径,有助于识别那些可能从更深入遗传学分析中获益的未确诊患者。