医疗影像数据去标识化:保障患者隐私的全方位解决方案

【字体: 时间:2025年06月08日 来源:European Radiology 4.7

编辑推荐:

  这篇综述介绍了一款开源工具,旨在解决医疗影像数据(如DICOM、NIfTI、WSI等格式)的去标识化(de-identification)难题。通过整合元数据匿名化、颅骨剥离(skull-stripping)、面部去除(defacing)及文本清除技术,该工具在保持与现有算法(如Synthstrip、HD-BET)相近效果的同时,将计算速度提升高达265倍,显著优化了临床与研究场景下的数据合规性(如GDPR/HIPAA)与实用性。

  

引言

真实世界医疗数据的研究价值远高于人工生成数据,但其包含的敏感信息(如PHI/PII)需严格保护。医疗影像(如MRI、CT)涉及多种存储格式(DICOM、NIfTI、Siemens twix等),而现有工具往往仅针对单一格式或任务,导致流程繁琐。本文提出的工具通过统一管道解决这一问题,兼顾效率与合规性。

先前工作

早期工具如Freesurfer的mrideface或pydicom库功能局限,且耗时(如pydeface需233秒/体积)。WSI(全切片图像)去标识化工具更稀缺,尤其缺乏对DICOM-WSI的支持。

材料与方法

数据类型:覆盖DICOM(临床主流)、NIfTI(研究常用)、twix(西门子原始数据)等。
技术框架

  • 元数据匿名化:遵循DICOM PS3.15标准,提供11种预设配置文件。
  • 颅骨剥离与面部去除:基于3D MedNext模型,训练数据来自NFBS(125例T1加权扫描)、CC-359(354例多厂商数据)等公开数据集,采用DICE损失函数与GPU加速,耗时仅0.77秒/体积。
  • 文本清除:通过Tesseract OCR分阶段检测图像边框文本,辅以白矩形干扰策略,超声图像去标识成功率达83.59%。
  • WSI处理:清除标签图像像素阵列及元数据。

结果

  • 效率:颅骨剥离速度较Synthstrip快20倍(0.77秒 vs 15.34秒),面部去除较pydeface快260倍(0.88秒 vs 233.57秒)。
  • 效果:颅骨剥离DICE分数与SOA算法相当(如Synthstrip),但婴儿扫描存在残留颅骨;面部去除后80.62%图像无法被面部识别模型检测。
  • 兼容性:支持多模态(T1、MRA、PD)及婴儿数据,但婴儿颅骨处理仍有改进空间。

讨论

工具优势在于整合性与速度,但存在局限:

  1. 文本清除可能误删有效信息;
  2. WSI目前仅支持DICOM格式;
  3. 未预处理可能牺牲少量精度。未来可引入Donut等先进OCR模型。

结论

该工具通过一站式解决多格式医疗影像的去标识化需求,显著提升效率(如twix数据头部双重清理),为GDPR/HIPAA合规研究提供实用方案。开源地址与Docker容器进一步降低了使用门槛。

(注:全文数据与结论均源自原文实验,未扩展非原文内容。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号