杜克大学颈椎MRI分割数据集(CSpineSeg):推动深度学习在脊柱影像分析中的应用
《Scientific Data》:The Duke University Cervical Spine MRI Segmentation Dataset (CSpineSeg)
【字体:
大
中
小
】
时间:2025年10月29日
来源:Scientific Data 6.9
编辑推荐:
本研究针对颈椎MRI手动分割耗时且缺乏公开数据的问题,开发了包含1,255例颈椎T2加权MRI的公开数据集CSpineSeg,其中481例包含专家手动分割标签。研究人员基于nnU-Net框架开发的分割模型在椎体和椎间盘分割任务中分别达到DSC=0.929和0.904的优异性能。该数据集为颈椎疾病(如退行性椎关节强硬)的自动分析提供了重要资源,填补了该领域公共数据空白。
在当今医学影像领域,颈椎疾病的精准诊断很大程度上依赖于磁共振成像(MRI)技术。特别是对于退行性椎关节强硬、脊柱感染和脊髓肿瘤等常见疾病,MRI能够提供关键的诊断信息。然而,一个长期存在的难题制约着颈椎MRI分析的进一步发展:详细的解剖结构分割需要放射科医生手动完成,这个过程极其耗时且容易引入主观偏差。
尽管近年来深度学习技术在医学影像分割领域取得了显著进展,但颈椎MRI分割研究却面临着一个关键瓶颈——缺乏大规模、高质量的公开数据集。与计算机断层扫描(CT)相比,MRI图像具有更高的软组织对比度,但同时也存在强度不均匀、伪影多等挑战,使得CT上训练的分割模型难以直接迁移到MRI。这种数据缺失严重阻碍了颈椎MRI分析算法的开发和评估。
为了解决这一迫切需求,杜克大学的研究团队在《Scientific Data》期刊上发布了名为"CSpineSeg"的公开数据集。这项研究汇集了来自1,232名患者的1,255例矢状位T2加权颈椎MRI检查,其中481例包含了由六名认证放射科医生手动完成的精细分割标注。这些标注涵盖了椎体和椎间盘两个关键解剖结构,为深度学习模型提供了可靠的训练基础。
数据集构建过程中,研究人员采用了严格的纳入排除标准。他们通过系统搜索杜克大学健康系统的电子健康记录,筛选出2019年12月至2020年11月期间进行的"MRI CERVICAL SPINE WITHOUT CONTRAST"检查。每个检查都经过人工审核,确保只包含质量合格、聚焦于颈椎的矢状位T2加权序列。这种严格的质量控制为数据集的可靠性提供了保障。
在标注过程中,研究团队采用了专业的ITK-Snap软件工具,由经验丰富的放射科医生团队完成语义分割。椎体被定义为包括任何骨赘在内的所有可见椎体部分,但不包括椎弓根和后部结构。椎间盘分割则包含了整个椎间隙,包括相关的突出、椎间盘-骨赘复合体和相邻椎体终板。这种精细的解剖学定义为后续的定量分析奠定了坚实基础。
研究团队采用多阶段技术路线:首先通过医院影像归档系统API接口筛选符合标准的颈椎MRI数据(2019-2020年期间的1,255例检查);由六名认证放射科医生使用ITK-Snap软件对481例数据完成手动语义分割;基于nnU-Net框架开发深度学习分割模型,采用五折交叉验证训练2D和3D U-Net模型;最佳模型用于自动标注剩余数据;所有数据经RSNA DICOM匿名化工具处理后通过MIDRC平台公开共享。
数据集通过医学影像与数据资源中心(MIDRC)平台公开提供,包含四个主要组成部分:结构化数据TSV文件记录了患者人口统计学和影像参数信息;原始DICOM格式的MRI图像文件按照标准目录结构组织;使用dcm2niix工具转换的NIfTI格式注释文件;以及相应的NIfTI格式分割标注文件。这种多层次的数据组织方式满足了不同研究需求。
分割性能评估显示,集成模型在椎体分割任务中达到Dice相似系数(DSC)0.929,椎间盘分割达0.904,宏观平均DSC为0.916。三种模型配置(2D U-Net、3D U-Net及其集成)均表现优异,且统计检验显示集成模型的优势不显著(P值>0.05)。交叉验证结果证实了模型的稳定性,其性能与已发表的腰椎脊柱分割研究相当。
研究团队指出CSpineSeg存在四个主要局限:标注为二进制而未区分椎体节段;自动标注数据未经过人工审核应视为弱标签;标注为解剖学而非病理学导向;缺乏多阅片者差异性评估。未来工作可聚焦于椎体水平分类、病理标签添加(如Modic变化分析或Pfirrmann椎间盘退变分级)以及弱标签数据的有效利用。
数据集使用者需注册MIDRC账户并遵守数据使用协议。推荐使用ITK-SNAP软件可视化DICOM文件和分割标注,其中标签1(红色)代表椎体,标签2(绿色)代表椎间盘。研究代码和训练好的模型权重可通过GitHub仓库和谷歌网盘获取,为后续研究提供了完整的技术支持。
这项研究的核心价值在于填补了颈椎MRI分割领域公共数据集的空白。CSpineSeg不仅提供了大规模、高质量的标注数据,还建立了可靠的基准模型,为后续研究奠定了坚实基础。数据集的多模态组织方式和严格的质控标准使其成为推动颈椎脊柱研究的重要资源。特别值得关注的是,研究团队采用了临床实践中典型的工作流程——由一名主要标注者完成初稿,再由专家审核——这种设计增强了数据集在真实世界应用中的实用性。
从技术角度看,该研究展示了nnU-Net框架在颈椎MRI分割中的强大能力,DSC超过0.9的性能表明深度学习在该任务中具有显著优势。同时,研究团队对局限性的坦诚讨论为未来改进指明了方向,特别是对椎体水平分类和病理标注的展望,预示着该数据集具有持续演进的潜力。
随着人工智能在医学影像分析中的深入应用,诸如CSpineSeg这样的高质量公共数据集将发挥越来越重要的作用。它们不仅加速算法开发,还促进研究可重复性和结果可比性。这项研究通过提供标准化的基准测试平台,有望推动颈椎脊柱影像分析进入新的发展阶段,最终为颈椎疾病的精准诊断和定量评估提供有力工具。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号