开放多厂商DICOM验证数据集:推动神经影像研究的跨平台可重复性

【字体: 时间:2025年07月10日 来源:Scientific Data 5.8

编辑推荐:

  为解决神经影像研究中因厂商私有DICOM标签和软件版本差异导致的参数提取难题,研究人员创建了涵盖CT/MR多模态的36个标准化DICOM验证数据集。通过提供原始DICOM文件与BIDS格式的NIfTI图像及元数据JSON文件,该项目揭示了厂商在公共/私有标签及专用数据结构中的编码规律,为dcm2niix等工具提供基准测试,显著提升跨厂商数据转换的准确性,推动神经影像分析的可重复性。

  

论文解读

在神经影像研究中,可重复性长期受制于一个隐形壁垒:不同厂商的扫描仪像说着不同的方言。虽然DICOM标准旨在实现医疗影像数据的互操作性,但制造商常将关键采集参数(如层序时间、相位编码方向)藏匿于私有标签(private tags)中,或通过专属数据结构(如"Other Byte"类型)加密。更棘手的是,随着增强型DICOM(enhanced DICOM)等新标准的演进,不同软件版本对同一参数的解读可能南辕北辙——例如西门子XA61系统曾错误标注多波段加速因子(MultibandAccelerationFactor)。这些"方言差异"导致跨中心研究的数据整合如履薄冰,甚至影响阿尔茨海默病等重大疾病的影像标志物验证。

为此,南卡罗来纳大学心理学系麦考斯兰脑成像中心(McCausland Center for Brain Imaging)联合全球20余家机构,在《Scientific Data》发表了一套革命性解决方案:36个开放DICOM验证数据集。通过精心设计的低分辨率模体(phantom)和少量人脑影像样本,这些数据集覆盖了佳能、GE、飞利浦、西门子等主流厂商的CT/MR设备,囊括动脉自旋标记(ASL)、扩散加权成像(DWI)、场图(fmap)等12类模态,重点标注了厂商在以下三类"方言"中的典型表达:(1)用私有标签存储BIDS关键字段(如表位参数TablePosition被分散编码于GE的0043,10B2、西门子的0021,1005等标签);(2)通过OB(Other Byte)类型隐藏专属数据结构;(3)经典DICOM与增强DICOM对同一参数(如重复时间RepetitionTime)的歧义定义。更创新的是,每个数据集均提供"参考答案":原始DICOM文件(In文件夹)与经人工校验的BIDS格式输出(Ref文件夹),包括NIfTI图像、JSON元数据及梯度方向文件(.bvec/.bval),形成可直接验证工具性能的黄金标准。

关键技术方法

研究团队采用模块化策略构建验证体系:

  1. 数据采集:在全球合作站点获取低分辨率影像(减少存储负担),涵盖厂商硬件(C=佳能/Toshiba, G=GE, P=飞利浦, S=西门子)和软件版本差异,重点捕捉12类边缘案例(如飞利浦缺失层序时间SliceTiming、西门子XA61参数错误)。
  2. 格式转换与校验:使用dcm2niix将DICOM转为BIDS格式(NIfTI+JSON),通过脚本(batch.sh)自动对比输出(Out文件夹)与参考数据(Ref文件夹),严格校验NIfTI二进制一致性及JSON键值对差异。
  3. 元数据映射:建立公共/私有DICOM标签与BIDS字段的对应关系表(如表2/3),解决如"总读出时间TotalReadoutTime需综合加速因子与半傅里叶参数推算"等复杂转换问题。
  4. 社区协同验证:数据集托管于Zenodo(DOI:10.5281/zenodo.15310934),通过GitHub Issues机制吸纳社区反馈,持续优化标签解读逻辑。

研究结果

1. 厂商"方言"破译手册(关键边缘案例库)
通过36个数据集(表1)系统揭示厂商特异性编码规律:

  • 飞利浦经典DICOM(dcm_qa_philips):缺失相位编码极性(PhaseEncodingPolarity)和层序时间(SliceTiming),需依赖第三方工具(如ezBIDS)补全。
  • GE层序时间计算(dcm_qa_ge):提供C程序(slicetime.cpp)验证层序时间推导算法,破解GE私有标签0027,1009对加速因子的存储逻辑。
  • 西门子增强DICOM(dcm_qa_xa60):XA60/XA61系列将多帧数据整合为单一文件,但需警惕XA61的多波段加速因子错误标注(经工程师确认后修复)。
  • 跨厂商压缩感知(dcm_qa_cs_dl):深度学习重建参数(如锐化等级)以厂商私有字符串存储,需在跨站点研究中标记为协变量。

2. DICOM到BIDS的"语义桥梁"
建立两类标签映射表:

  • 直接映射字段(表2):如翻转角(FlipAngle)可直读DICOM标签<0018,1314>,但需注意重复时间(RepetitionTime)在厂商间存在"长/短间隔"歧义。
  • 私有标签解码(表3):如GE的BIDS字段MultibandAccelerationFactor需解析私有标签<0043,1083>,而西门子对应标签为<0021,1009>。

3. 工具验证效能提升
数据集已整合至7类主流工具测试流程:

  • dcm2niix:修复西门子MOSAIC图像倒序编号问题(dcm_qa_mosaic)。
  • SPM/FreeSurfer:验证CT影像的机架倾斜(gantry tilt)参数转换(dcm_qa_ct)。
  • Orthanc-neuro:解决PACS系统篡改私有标签引发的兼容性问题(dcm_qa_ts)。

结论与意义

这项研究构建了神经影像领域的"罗塞塔石碑":通过标准化DICOM验证数据集,首次系统化解码了不同厂商的参数存储"方言",为影像分析工具提供了跨平台校验基准。其核心突破在于:

  1. 推动可重复性:解决因私有标签和增强DICOM演进导致的分析 pipeline 断裂,使ADNI等多中心项目的数据整合成为可能。
  2. 加速工具迭代:dcm2niix等工具借助该数据集修复了32项边缘案例错误(如扩散方向的空间坐标系歧义),工具版本更新可通过batch.sh脚本自动验证。
  3. 赋能临床转化:公开的CT验证模块(dcm_qa_ct)助力影像组学在肿瘤定量分析中的标准化,支撑了DICOM-QI(Quantitative Imaging)通信框架落地。

正如论文通讯作者Christopher Rorden强调:"当制造商看到社区用我们的数据集揭示其参数存储错误时,修复速度显著提升。" 这套开放验证资源将持续演化,最终实现神经影像研究的"世界语"梦想——无论数据来自何种设备,科学发现皆可复现。


注:专业术语处理示例

  • 首次出现术语:如"增强DICOM(enhanced DICOM)"、"多波段加速因子(MultibandAccelerationFactor)"
  • 保留大小写与角标:如"RepetitionTimeExcitation"、"BIDS(Brain Imaging Data Structure)"
  • 厂商名/工具名:保留原始拼写(如dcm2niix、ezBIDS)
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号