《Neuromuscular Disorders》:Visual mapping of muscle MRI fatty replacement patterns in genetic myopathies using dimensionality reduction
编辑推荐:
本杰明·皮萨罗-加列吉略斯(Benjamín Pizarro-Galleguillos)|何塞·韦杜-迪亚兹(José Verdú-Díaz)|大卫·戈麦斯-安德烈斯(David Gómez-Andrés)|费利佩·托瓦尔(Felipe Tobar)|克里斯蒂安·蒙塔尔巴(Cri
本杰明·皮萨罗-加列吉略斯(Benjamín Pizarro-Galleguillos)|何塞·韦杜-迪亚兹(José Verdú-Díaz)|大卫·戈麦斯-安德烈斯(David Gómez-Andrés)|费利佩·托瓦尔(Felipe Tobar)|克里斯蒂安·蒙塔尔巴(Cristian Montalba)|马塞洛·安迪亚(Marcelo Andia)|霍尔迪·迪亚兹-马内拉(Jordi Díaz-Manera)|豪尔赫·迪亚兹·哈拉(Jorge Díaz Jara)|豪尔赫·A·贝维拉夸(Jorge A. Bevilacqua)
智利大学临床医院影像中心。地址:卡洛斯·洛尔卡·托瓦尔博士大道999号,独立区(Avenida Dr. Carlos Lorca Tobar 999, Independencia),邮编8380453,圣地亚哥,智利
摘要
肌肉磁共振成像(MRI)是遗传性肌病诊断中的辅助工具;然而,其解读仍然具有挑战性,因为需要同时评估许多肌肉,且不同疾病的特征存在重叠。本研究评估了降维技术(DRT)是否能够将复杂的肌肉MRI脂肪替代数据转化为有意义的低维可视化图谱,以显示患者之间的相似性。我们分析了一个包含975名患者的多中心数据集,这些患者的诊断结果均经过基因验证,涵盖了十种不同的肌病。研究使用骨盆和下肢肌肉的Mercuri评分作为输入数据。应用主成分分析(PCA)、ISOMAP、t分布随机邻域嵌入(t-SNE)和均匀流形近似与投影(UMAP)算法生成了肌肉脂肪替代的二维表示。通过无监督聚类来衡量这些低维图谱在保留疾病特异性组织结构方面的能力,从而定量评估其质量。随后使用高斯混合模型(GMM)来评估低维图谱是否保留了足够的信息以支持疾病鉴别。结果表明,UMAP和t-SNE的表现优于PCA和ISOMAP。此外,UMAP产生的疾病分组更加连贯且分离度更高(V-measure指标分别为0.415和0.403),并与GMM结合使用时,诊断准确率也更高(87%对比81%)。总体而言,降维技术为可视化神经肌肉疾病中的肌肉MRI模式相似性提供了框架,有助于模式识别。
引言
遗传性肌病是一组异质性的罕见疾病,其特征是进行性肌肉无力,并伴有不同程度的萎缩和脂肪替代[1,2]。尽管分子遗传学检测对于确诊至关重要,但肌肉MRI已成为临床实践中的辅助工具,因为多项研究表明脂肪替代在疾病中具有相对特异性的分布[3]。识别这些模式可以指导诊断过程,帮助确定优先进行基因检测,并支持临床决策[4]。
然而,肌肉MRI数据本质上是高维的,因为需要评估多达70块肌肉(仅考虑骨盆和下肢的肌肉),每块肌肉的脂肪替代程度各不相同。这种高维度特性加上疾病间特征的重叠,使得患者之间的直接比较和全局结构的提取变得困难。
传统上,肌肉MRI模式的可视化依赖于热图,通常结合层次聚类方法。虽然这些方法可以实现对患者和肌肉的分组,但其解释并不能提供连续且可扩展的患者相似性表示[5]。与此同时,人工智能的最新进展使得监督机器学习模型能够从肌肉MRI数据中预测神经肌肉疾病[6,7]。尽管这些方法可以达到较高的分类准确率,但它们主要针对预测进行了优化,对疾病相似性、表型重叠或数据的内在结构的洞察有限。
在这种情况下,降维技术(DRT)通过将患者嵌入到连续的低维空间中,提供了一种直观的表示方法,可以随着新患者的加入而不断扩展。尽管具有这种潜力,但其在神经肌肉成像中的应用仍然有限。不同的降维技术在数据结构保留方面存在差异。线性方法如PCA通过特征的线性组合来捕捉全局方差,而非线性方法如ISOMAP、t-SNE和UMAP则旨在保留基于流形的关系。因此,这些技术可能产生质量不同的低维图谱,在表示疾病模式方面的能力也有所不同。然而,目前尚无证据表明哪种方法最适合表示遗传性肌病中的肌肉MRI数据。
这种方法的一个关键点是,低维可视化图谱的质量可以定量评估[8]。如果某种表示方法能够保留与疾病相关的结构,那么相同诊断的患者应该聚集在一起,而不同疾病组应保持可区分性。在这种情况下,可以使用无监督聚类指标来评估图谱在多大程度上保留了这种组织结构。同时,监督方法可以评估低维表示是否保留了足够的疾病鉴别信息。重要的是,在这个框架中,预测性能反映了表示内部疾病模式的可分离性,而不是分类器本身的最优性。
这激发了在这一特定临床背景下系统地定量评估降维技术的需求。基于这一框架,我们假设降维技术可以生成保留肌肉MRI数据中疾病特异性组织的低维可视化图谱,并且这些表示可以定量评估,以比较不同方法并评估它们捕捉疾病相关MRI数据结构的能力。
因此,本研究的目标有三个:首先,评估降维技术是否能够在大型多中心队列中生成肌肉MRI脂肪替代模式的低维可视化图谱;其次,评估这些表示是否保留了足够的支持疾病鉴别所需的信息;第三,确定哪种降维技术最能保留疾病特异性组织和患者相似性。
章节摘录
研究设计和伦理考量
这项回顾性研究评估了降维技术在遗传性肌病中可视化MRI脂肪替代模式的可行性。所有程序均符合相关法律法规和机构指南,并获得了当地伦理委员会的批准。所有MRI数据均以匿名形式保存,来自一个公开发布的数据库,以下简称Verdú Díaz队列[6]。图1总结了研究方法的工作流程。
研究样本和数据
我们分析了Verdú Díaz队列的数据,
降维
图2展示了使用PCA、ISOMAP、UMAP和t-SNE获得的二维表示结果,患者按疾病类型进行了颜色编码。
UMAP表示(图2.A)显示出比PCA和ISOMAP更好的聚类组织结构,其整体聚类结构与t-SNE相当,且簇内同质性略高。CAPN3、DYSF、FSHD、Pompe和OPMD患者的簇相对紧凑且密集,尽管存在部分重叠
讨论
除了可视化之外,本研究还表明,可以通过结合聚类一致性和预测性能来系统地评估低维表示,以此作为疾病相关结构保留情况的代理指标。据我们所知,此前没有研究直接比较过不同降维技术在表示遗传性肌病肌肉MRI模式方面的能力。在这个框架下,非线性方法,特别是UMAP和t-SNE,表现更为出色
结论
总体而言,这些发现表明,当降维技术与概率建模结合使用时,可以为分析遗传性肌病中的肌肉MRI模式提供框架,即使在考虑了全局脂肪负担和缺失数据分布的情况下,疾病结构也能保持稳定。
通过在连续的低维空间中捕捉共享和疾病特异性的成像特征,这种方法有助于结构化地可视化患者之间的相似性
AI使用声明
在准备这项工作时,作者使用了ChatGPT来纠正语法错误并重写文本以提高清晰度。还使用了Visual Studio Code Copilot中的ChatGPT集成来审查Python代码、识别错误并进行重构。使用这些工具后,作者根据需要审查和编辑了内容,并对发表文章的内容负全责。
CRediT作者贡献声明
本杰明·皮萨罗-加列吉略斯(Benjamín Pizarro-Galleguillos):撰写 – 审稿与编辑、初稿撰写、方法论、数据管理、概念化。何塞·韦杜-迪亚兹(José Verdú-Díaz):撰写 – 审稿与编辑、方法论、数据管理、概念化。大卫·戈麦斯-安德烈斯(David Gómez-Andrés):撰写 – 审稿与编辑、方法论、数据管理、概念化。费利佩·托瓦尔(Felipe Tobar):撰写 – 审稿与编辑、方法论、概念化。克里斯蒂安·蒙塔尔巴(Cristian Montalba):撰写 –
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系
致谢和资助
本研究得到了ANID、Millennium Science Initiative Program(项目编号CN2021_004)、FONDECYT 1151383资助以及ANID国家博士奖学金的支持。