基于机器学习的多中心前列腺多参数 MRI 序列自动识别:优化数据管理,助力前列腺癌精准诊疗

【字体: 时间:2025年03月28日 来源:Insights into Imaging 4.1

编辑推荐:

  在临床机器学习(ML)中,前列腺多参数 MRI(mpMRI)数据集的组织存在难题。研究人员开展了自动序列类型识别研究,用 XGBoost 和 CatBoost 模型训练,测试 F1 分数高。结果表明特定数据可提升性能,该研究助力数据整理与临床 AI 模型训练。

  在医学领域飞速发展的当下,临床机器学习(ML)与放射学数据的结合愈发紧密,成为极具潜力的研究方向。借助海量的医学影像数据,机器学习有望实现疾病的精准诊断和个性化治疗,为患者带来更好的医疗服务。然而,在实际应用过程中,却面临着诸多棘手的问题。就拿前列腺多参数磁共振成像(mpMRI)数据集来说,其包含 T2 加权(T2W)、扩散加权成像(DWI)、表观扩散系数(ADC)和动态对比增强(DCE)等多种序列类型,如何将这些复杂的序列准确分类并标注,以便为临床 ML 模型训练提供高质量的数据支持,成为了亟待解决的难题。目前,虽然不少医院和临床中心积累了大量数据,但由于技术和人力等方面的限制,这些数据难以有效用于模型训练。在此背景下,开展相关研究以实现前列腺 mpMRI 数据集序列的自动识别,显得尤为重要。
为了解决上述问题,来自葡萄牙尚帕利莫德基金会(Champalimaud Foundation)等多个机构的研究人员组成团队,开展了一项关于自动序列类型识别的研究。他们旨在提出一种精确的机器学习方法和基于知识的启发式算法,用于在多中心前列腺 mpMRI 数据集中自动识别序列类型,从而实现自动化的数据整理。该研究成果发表在《Insights into Imaging》上。

研究人员为开展此项研究,运用了多个关键技术方法。首先,他们收集了大量的回顾性前列腺 mpMRI 研究数据,这些数据来自 11 个不同的中心,共包含 4045 项研究(31,053 个序列)用于训练机器学习模型,1004 项研究(7891 个序列)用于测试。接着,利用 pydicom 这个 Python 包从每个序列中提取特定的元数据字段,并对数据进行清洗和处理。然后,选择了 CatBoost 和 XGBoost 这两种机器学习模型进行训练和测试,使用 5 折交叉验证(CV)来优化模型超参数,并通过学习曲线分析、留一组交叉验证(LOGO CV)分析以及时间验证等方法评估模型性能。

下面来看看具体的研究结果:

  1. 近乎完美的序列类型区分:研究发现,XGBoost 和 CatBoost 这两种模型在区分序列类型时表现出色,错误率极低。不过,XGBoost 在使用工程特征(即标记化字符串特征)训练后,性能优于 CatBoost。在 XGBoost 模型中,包含所有特征会导致 DCE 识别的性能下降,但这种下降幅度较小,不太可能影响临床 ML 数据集的整理12
  2. 学习饱和度表明模型性能接近最优:通过学习曲线分析可知,大多数模型在使用 2 - 10% 的训练数据时,性能趋于稳定,这意味着在数据量达到一定程度后,模型性能提升不再依赖大量数据,也表明模型性能接近最优34
  3. 序列类型区分需要特定数据集的案例:LOGO CV 分析结果显示,当模型在训练时未包含某些中心的数据,而在测试中使用这些中心的数据时,性能会明显下降,且 CatBoost 模型的 F1 分数下降幅度比 XGBoost 模型更大。此外,不同序列类型的性能下降程度也有所不同,ADC 和 DWI 相对容易识别,而 DCE、T2W 和其他序列的性能下降较为明显56
  4. 时间验证凸显一致性:对模型进行时间验证时,将性能最佳的方法应用于 2022 年 3 月 31 日后获得的 102 个病例,结果显示放射科医生识别的 T2W、DWI 和 ADC 三联体均被正确预测,大部分干扰序列类型也能正确识别(73%),这表明模型具有较好的一致性78
  5. 额外的序列分类启发式算法:研究人员还确定了一些额外的启发式算法,用于进一步优化序列注释。例如,通过方向余弦矩阵确定 T2W 的轴向平面序列;排除切片间距大于 4.0mm 的 T2W 序列;利用 DICOM 文件中的图像类型属性排除指数 ADC(eADC);根据系列描述属性排除合成 DWI(sDWI);依据 b 值选择合适的 DWI 序列等910

综合上述研究结果,研究人员得出结论:自动序列类型识别在前列腺 mpMRI 数据集中是可行的,并且能够实现自动化的数据整理,为临床 AI 模型训练提供有力支持。然而,为了达到最佳性能,需要纳入特定数据集的数据。此外,研究人员提出的启发式算法可以帮助医学信息团队更好地自动整理大型前列腺 mpMRI 数据集。

从研究讨论部分来看,该研究具有重要意义。一方面,与其他基于元数据或深度学习的方法相比,该研究提出的基于元数据的序列类型分类方法性能相当,且深度学习方法带来的性能提升有限,这表明在实际应用中,基于元数据的方法是一种可行且高效的选择。另一方面,尽管研究存在一些局限性,如未测试像素信息,但整体研究成果为多中心前列腺 mpMRI 数据的管理和临床机器学习模型的训练提供了重要的参考和借鉴,有助于推动前列腺癌的精准诊疗,具有广阔的应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号