MU-Glioma Post:一个包含自动化MR多序列分割和临床特征的综合性数据集

《Scientific Data》:MU-Glioma Post: A comprehensive dataset of automated MR multi-sequence segmentation and clinical features

【字体: 时间:2025年11月21日 来源:Scientific Data 6.9

编辑推荐:

  胶质瘤术后MRI数据集构建及自动化分割研究。该研究收集203名胶质瘤患者594个术后时间点的多模态MRI影像,涵盖T1、T1增强、T2及FLAIR序列,采用FeTS工具箱结合nnU-Net等深度学习模型进行肿瘤亚组分自动分割(增强肿瘤、坏死核心、周围水肿及切除腔),并通过三级专家验证确保ground truth准确性。数据集已通过TCIA平台开放获取,为开发精准评估治疗反应的AI模型提供标准化数据基础。

  本文介绍了一项关于脑胶质瘤患者治疗后影像数据的全面研究,旨在构建一个高质量的公开数据集,用于开发和改进人工智能模型,以更好地评估治疗效果。胶质瘤是中枢神经系统中最常见的恶性肿瘤之一,其临床表现和影像特征具有高度的异质性,使得治疗后的影像分析变得复杂。传统磁共振成像(MRI)技术在评估治疗效果时常常面临挑战,尤其是区分治疗后出现的伪进展(pseudo-progression)和放射性坏死(radiation necrosis)等现象。这些现象在影像上可能表现出相似的特征,从而增加了诊断的难度。因此,建立一个结构清晰、标注准确的影像数据集对于推动人工智能在胶质瘤治疗后影像分析中的应用至关重要。

研究团队收集了203例胶质瘤患者的影像数据,共包含594个治疗后的时间点。这些数据涵盖了常规的T1加权、T1对比增强、T2加权以及FLAIR加权MRI序列。为了确保数据的标准化和准确性,团队采用了一套标准化的预处理流程,结合了自动深度学习分割技术与神经放射科医生的专家验证。深度学习模型如nnU-Net、DeepMedic和DeepScan被用于自动分割肿瘤的不同组成部分,包括增强性肿瘤、非增强性坏死核心、非增强性FLAIR高信号区域以及手术切除腔。这些分割结果随后由神经放射科医生进行人工校正,以确保最终的标注结果具有高度的可靠性。

在数据预处理过程中,所有原始的DICOM文件被转换为NIfTI格式,并通过dcm2niix工具进行处理,以确保去除任何可能残留的患者隐私信息。随后,这些图像被重新采样至1 mm3的各向同性分辨率,并与标准的人脑解剖学图谱SRI24进行配准,以提高图像的一致性和可比性。为了减少磁场不均匀性的影响,团队还应用了N4ITK算法进行强度非均匀性校正。此外,使用BrainMaGe算法进行自动脑部提取,以去除颅外结构,如头骨、脂肪和眼部组织,从而提高后续分割和配准的准确性。

在数据标注方面,团队采用了多种深度学习模型,并结合了联邦学习(Federated Learning)的框架,以优化模型在不同机构和数据集上的泛化能力。这一方法不仅提高了模型的鲁棒性,还增强了数据的多样性。通过使用STAPLE(Statistical Label Fusion)算法,团队融合了多个模型的预测结果,以提高分割的稳定性和准确性。同时,为了确保不同机构之间的标注一致性,团队遵循了BraTS标准的标签定义,并对所有分割结果进行了严格的强度阈值和标签集的统一检查。

研究团队对数据集进行了全面的结构化组织,使其在公开的癌症影像存档(TCIA)平台上可供研究人员和临床医生使用。该数据集分为三个主要部分:影像和分割结果、临床数据以及分割体积的定量特征。影像部分包括经过预处理的多时间点MRI图像,这些图像已被颅骨剥离、配准和压缩为NIfTI格式。临床数据则以CSV表格形式呈现,涵盖了患者的性别、种族、年龄、肿瘤类型、分子标志物、治疗方案以及影像随访的时间间隔等信息。定量特征部分则提取了每个肿瘤成分在不同MRI序列中的体积、像素数量以及信号强度的统计信息,为后续的AI模型训练和评估提供了丰富的数据支持。

为了验证自动分割的准确性,研究团队实施了一个三层次的专家验证流程。首先,由具有神经肿瘤学标注经验的医学学生进行初步的影像审查和手动修正。接着,由两位放射科住院医师和一位神经放射学研究员组成的团队对修正后的分割结果进行独立评估。最后,由两位具有五年以上经验的认证神经放射科医生达成共识,确认最终的标注结果。这一流程有效减少了自动化分割中的系统性误差,并提高了标注结果的可靠性。此外,团队还记录了在自动分割过程中出现的常见错误,例如T1高信号区域的误分类、非增强性T2/FLAIR高信号区域的过度采样或欠采样、以及术区周围组织的误判等。这些错误的识别和修正进一步提升了数据集的质量。

在性能评估方面,团队采用了一系列标准的定量指标,包括Dice相似性系数(DSC)、Jaccard指数以及95百分位的Hausdorff距离(HD95),以衡量自动分割结果与专家标注之间的匹配程度。通过对整个患者群体的评估,团队得出各标准肿瘤子区域(整体肿瘤、肿瘤核心和增强性肿瘤)的平均分割准确率。这些结果为后续的AI模型开发提供了重要的基准,同时也为研究人员在处理类似数据时提供了参考。

值得注意的是,该数据集的构建过程中存在一些局限性。首先,由于数据来源于回顾性研究,可能存在数据采集过程中的异质性。不同MRI设备(如Siemens、GE和Philips)和不同的磁场强度(1.5 T和3 T)可能导致图像质量的差异,进而影响AI模型的训练和评估。其次,尽管专家标注提高了数据的准确性,但标注过程本身仍可能存在主观性差异,特别是在处理复杂的治疗后影像时。此外,临床数据的获取依赖于电子病历(EMR)的回顾,这可能导致某些数据点的缺失或不一致,从而影响模型的泛化能力。

综上所述,该数据集不仅为AI在胶质瘤治疗后影像分析中的应用提供了宝贵的数据资源,还通过严格的预处理和专家验证流程,确保了数据的高质量和一致性。它为研究人员提供了一个结构清晰、标注详尽的平台,有助于开发更加精准和可靠的AI模型,从而改善胶质瘤患者的治疗效果评估和临床决策。同时,该数据集也强调了在处理异质性数据时,需要考虑的挑战和潜在的改进方向,为未来的研究提供了重要的启示。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号