
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MSLesSeg:多发性硬化病灶分割新数据集与基准方法的建立及验证
【字体: 大 中 小 】 时间:2025年06月01日 来源:Scientific Data 5.8
编辑推荐:
本研究针对多发性硬化(MS)病灶手工分割耗时且存在操作者偏差的问题,开发了公开MRI数据集MSLesSeg,包含115例患者的T1/T2/FLAIR序列及专家标注。团队通过AI模型MSSegDiff实现自动化分割,DSC达0.6851,优于SwinUNETR等主流算法。该数据集填补了MS病灶分割领域高质量公开数据的空白,为临床AI辅助诊断提供标准化基准。
多发性硬化(MS)作为一种累及中枢神经系统的慢性炎症性疾病,其病灶的准确识别对临床诊疗至关重要。当前MS病灶分割主要依赖放射科医师手工标注磁共振成像(MRI)图像,不仅耗时费力,还易受主观判断影响。尽管机器学习方法在医学图像分割领域取得进展,但缺乏大规模、高质量的标准化数据集成为制约算法发展的瓶颈。现有公开数据集如ISBI-2015存在样本量有限、标注不一致等问题,导致AI模型泛化能力不足。
为解决这一难题,意大利卡塔尼亚大学的研究团队构建了MSLesSeg数据集,相关成果发表于《Scientific Data》。该研究包含75名MS患者(48女/27男)的115次扫描,涵盖T1加权(T1-w)、T2加权(T2-w)和液体衰减反转恢复(FLAIR)三种MRI序列,所有图像经FLIRT工具配准至MNI152标准空间,并由资深神经放射学家通过JIM 9.0软件完成病灶标注。团队采用5折交叉验证策略,对比测试了基于扩散模型的MSSegDiff与SwinUNETR等主流算法性能。
关键技术方法包括:1) 多中心MRI数据采集(1.5T/3T场强);2) 基于FLIRT的跨模态图像配准;3) 专家共识标注流程(初级标注+双高级专家复核);4) 扩散模型与注意力机制融合的MSSegDiff架构;5) Dice系数(DSC)等6项量化评估指标。
【Data collection】
研究纳入18-59岁MS患者(平均37±10.3岁),按病程分为复发缓解型(RRMS)、继发进展型(SPMS)和原发进展型(PPMS)。训练集含53例患者(50 RRMS/3 SPMS),测试集22例(21 RRMS/1 PPMS),所有扫描均包含T1-w、T2-w和FLAIR序列。FLAIR图像显示病灶最清晰,平均空间分辨率455.82×455.82像素(±314.71)。
【Preprocessing】
采用FSL工具包完成关键预处理:1) DICOM转NIFTI格式;2) 基于BET的颅骨剥离;3) 12自由度仿射变换配准至1mm3各向同性MNI152模板。这些步骤确保不同扫描仪数据具有可比性。
【Labelling】
标注协议严格规定:初级标注员需同步查看T1-w/T2-w序列辅助判断,对模糊病灶采用ROI跨切片传播技术。图2展示的3D标注示例显示,该方法能有效识别脑室周围、皮质/近皮质等典型MS病灶区域。
【Evaluation Metrics】
除常规DSC、真阳性率(TPR)外,创新性引入病灶级评估指标:LTPR(单个病灶识别率)和LFPR(假阳性率)。共识分析发现,AI算法在较大病灶边缘易产生系统性偏差(图3),而专家标注更符合解剖实际。
【Technical Validation】
MSSegDiff在测试集表现最优:平均DSC 0.6851显著高于UNETR(0.6421)和TransBTS(0.4917)。表5显示其AVD(绝对体积差异)仅24.45%,证明体积测量准确性。图4直观对比显示,该模型能更好保留病灶形态学特征,减少假阳性。
该研究创建了目前最全面的MS病灶分割开源数据集,其价值体现在三方面:1) 提供跨机构、多扫描仪的真实世界数据,增强算法鲁棒性;2) 确立标准化预处理和评估流程,解决以往研究可比性差的痛点;3) 验证了扩散模型在医学图像分割中的优势,为后续研究提供新方向。数据集采用CC-BY-4.0许可,已托管至Figshare平台(DOI:10.6084/m9.figshare.27919209),配套代码全部开源。这项工作将加速MS病灶定量分析工具的临床转化,助力个性化诊疗方案制定。
生物通微信公众号
知名企业招聘