MK-11:首个用于巨核细胞自动形态学研究的开放骨髓数据集

《Scientific Data》:An open bone marrow megakaryocyte dataset for automated morphologic studies

【字体: 时间:2025年12月17日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对骨髓巨核细胞(MK)亚型分类缺乏高质量开放数据集的问题,开发了包含7,204张图像的MK-11数据集,涵盖11个临床相关亚型。研究通过五折交叉验证评估了ConvNeXt、EfficientNet等主流模型,建立了性能基准(最佳准确率74%)。该资源为MDS等血液疾病的自动形态学诊断提供了重要基础。

  
在血液学诊断领域,骨髓细胞形态学评估始终是诊断骨髓增生异常综合征(MDS)和其他克隆性造血障碍的金标准。临床实践中,这需要通过后上髂棘穿刺获取骨髓抽吸物,经瑞特-吉姆萨(Wright-Giemsa)染色后,由病理学家在显微镜下进行评估。以MDS为例,评估需要计数至少500个有核细胞,并特别关注巨核细胞(Megakaryocyte, MK)的形态,因为约89%的新诊断病例表现出巨核细胞发育不良。根据2022年国际形态学工作组标准,巨核细胞异常比例达到或超过10%是确认MDS的重要标准。巨核细胞评估的临床意义远不止于MDS诊断:不同的巨核细胞亚型与多种血液疾病、疾病进展和预后密切相关。例如,原始巨核细胞和未成熟巨核细胞比例升高通常预示向急性髓系白血病转化的风险增加,而微小巨核细胞和裸核巨核细胞则是MDS的高度特异性指标,与不良预后相关。
然而,当前的手动评估面临诸多挑战:耗时费力、主观性强,观察者间一致性有限,且不同医院和医生之间存在显著的诊断差异,严重影响治疗决策。虽然计算机辅助诊断系统有望解决这些问题,但此类系统的开发一直受到开放、标准化、注释良好的骨髓图像资源极度匮乏的阻碍,尤其是巨核细胞,仅占骨髓有核细胞的约0.05%。建立自动识别系统可以标准化这一过程,不仅能减轻临床工作量,还能显著提高诊断的准确性和一致性,最终通过更可靠的预后和治疗决策使患者受益。
目前,现有的公共数据集无法满足自动巨核细胞分析的迫切需求。这些数据集要么完全缺乏巨核细胞样本,要么提供的注释细节不足以进行亚型分类。例如,BloodMNIST和Raabin-WBC仅关注循环白细胞,不含骨髓细胞。TCIA Bone marrow-Cytomorphology库尽管提供了945名患者的全切片图像,但巨核细胞数量极少,且缺乏单细胞注释。Roboflow上的一个较小数据集主要解决巨核细胞分割问题,而非亚型区分。这些现有资源存在两个关键局限性:(i) 巨核细胞样本极少或完全缺失;(ii) 缺乏亚型注释,使其难以支持血液疾病的细粒度表型识别。
为了解决这些问题并提供可重复的研究基准,研究人员基于国际形态学工作组标准,确定了11个互斥的巨核细胞亚型,包括:A: 原始巨核细胞(MK-blast);B: 幼巨核细胞(Pro-MK);C: 颗粒型巨核细胞(G-MK);D: 血小板生成型巨核细胞(PP-MK);E: 裸核巨核细胞(NN-MK);F: 正常大小单叶或低分叶巨核细胞(N-MK);G: 小型单叶或低分叶巨核细胞(S-MK);H: 微小巨核细胞(MMK);I: 多核巨核细胞(MN-MK);J: 大型超分叶巨核细胞(HL-MK);K: 伴胞质异常巨核细胞(CA-MK),包括胞质空泡、胞质颗粒减少和持续性嗜碱性胞质三种亚型。
基于此分类方案,研究团队构建了MK-11,这是首个带有注释的巨核细胞亚型公共图像资源。该数据集包含7,204张从70名患者的瑞特-吉姆萨染色骨髓涂片中裁剪出的单细胞图像。由两名经过认证的血液病理学家独立进行初始注释,对4.7%存在分歧的病例通过资深专家共识评审解决。最终的标签分布呈现出反映临床观察的自然长尾模式。为确保可重复性并促进公平比较,研究提供了标准化的五折交叉验证划分,以及使用五种常见深度学习架构(ConvNeXt、EfficientNet、ResNet、VGG和ViT)的参考实现和基线结果。
为开展研究,研究人员采用了一套严谨的四阶段流程:数据收集与预处理、数据过滤、专家注释和数据组织。关键技术方法包括:收集70名MDS、ITP、急性巨核细胞白血病患者及健康捐赠者的骨髓抽吸标本,制备染色涂片;使用KF-P BL05全景数字病理扫描仪数字化,分辨率达0.253微米/像素;实施严格的图像质量控制和筛选;由两位血液病理学家遵循IWGM标准独立注释11个MK亚型,计算Cohen's kappa系数(0.83)评估一致性;按患者级别进行标准化的五折交叉验证数据组织,防止数据泄露。
数据记录
MK-11数据集在Figshare上公开可用,采用知识共享署名4.0国际许可。发布包包含两个主要部分:MK-11核心数据集,包含7,204张高质量图像,按11个亚型组织;MK-11-CV5,提供了前述五折交叉验证方案的标准化实验资源。所有图像保持原始质量,无压缩伪影。
技术验证
为严格验证数据集并评估其对于深度学习应用的效用,研究人员使用标准化五折交叉验证对五种主流架构进行了基准测试。所有图像经过统一预处理,并实施了全面的数据增强。实验结果显示,即使在最优配置下,平均准确率约为74%,反映了该任务因长尾分布和亚型间细微形态差异而固有的挑战性。最佳性能模型在所有验证轮次中错误分类了约1,800张图像。为了分析分类错误并进一步验证注释质量,由未参与初始注释的资深血液病理学家对200例分层随机抽样的误分类案例进行了详细审查。约93%的误分类归因于两个因素:细胞发育谱系中具有相似形态特征的边界案例,以及高度相似的亚型。重要的是,审查确认了原始注释的准确性,验证了数据集的可靠性。
鉴于巨核细胞形态的复杂性和数据集显著的长尾分布,未来的研究方向可聚焦于:(i) 开发处理细粒度视觉分类中类别不平衡的专门技术;(ii) 探索针对样本有限的罕见亚型的少样本学习方法;(iii) 研究更复杂的特征提取方法以区分相似亚型间的细微形态差异。这些进展将增强模型在真实临床场景中的鲁棒性和实用性,因为在临床中罕见亚型通常具有重要的诊断价值。
该研究成功构建并发布了首个专门用于巨核细胞亚型自动形态学分类的大规模开放数据集MK-11。数据集具有亚型分类精细、注释质量高(专家共识,Cohen's kappa为0.83)、数据组织规范(患者级别的五折交叉验证)等特点。通过系统评估多种主流深度学习模型,研究为未来相关算法开发提供了可靠的性能基准。这项工作填补了该领域高质量公共数据资源的空白,为开发标准化、自动化的巨核细胞形态评估工具奠定了坚实基础,有望最终改善MDS等血液疾病的诊断一致性和患者预后。该数据集和基准结果已发表在《Scientific Data》期刊上,对所有研究者开放,将极大地推动血液病理学人工智能辅助诊断研究的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号