TXL-PBC:高质量外周血细胞数据集的构建与基准测试——整合四大公共资源的精准标注与验证
《Scientific Data》:A Curated and Re-annotated Peripheral Blood Cell Dataset Integrating Four Public Resources
【字体:
大
中
小
】
时间:2025年10月29日
来源:Scientific Data 6.9
编辑推荐:
本研究针对临床血细胞检测中数据集稀缺、标注质量不一的问题,通过整合BCCD、BCDD、PBC和Raabin-WBC四个公共数据集,构建了包含1,260张图像和18,143个标注框的高质量外周血细胞数据集TXL-PBC。研究人员采用YOLOv8n半自动标注与人工复核相结合的方式,确保了标注的准确性和一致性,并通过对YOLOv5s、YOLOv8s等六种主流检测模型的基准测试验证了数据集的实用性。该数据集为血细胞检测模型的开发与评估提供了重要资源,推动了血液学人工智能研究的发展。
在临床医学诊断中,血细胞的分析、检测和计数是医生诊断疾病的重要指标。随着人工智能技术的发展,越来越多的研究尝试将AI模型整合到血细胞分析中。然而,由于患者隐私和安全考虑,许多医院不愿公开其数据集,导致高质量的血细胞数据集十分稀缺。现有公共数据集如BCCD存在图像质量参差不齐、标注错误频发等问题,严重影响了机器学习模型的性能。
研究人员发现,BCCD数据集中存在图像模糊、红细胞严重重叠、白细胞损伤以及大量漏标注等问题。如图1所示,(a)展示了对焦不准或模糊的图像,(b)显示红细胞严重重叠导致边界难以区分,(c)呈现受损的白细胞,(d)则展示了BCCD数据集中的漏标注问题。这些问题严重制约了血细胞检测模型的发展。
为解决这些问题,由Lu Gan、Xi Li和Xichun Wang组成的研究团队在《Scientific Data》上发表了题为"A Curated and Re-annotated Peripheral Blood Cell Dataset Integrating Four Public Resources"的研究论文,介绍了他们构建的TXL-PBC数据集。该研究整合了四个公共数据集,通过严格的样本筛选、半自动标注和人工复核,建立了一个高质量、多样化的外周血细胞图像数据集。
研究方法主要包括四个关键环节:首先从BCCD、BCDD、PBC和Raabin-WBC四个数据集中精心筛选样本,其中从BCCD的364张图像中保留160张高质量图像,从BCDD选取100张,从PBC和Raabin-WBC各选500张,共计1,260张图像;其次采用YOLOv8n模型进行半自动标注,先手动标注250张样本训练模型,再用模型标注剩余数据;然后进行人工复核,特别关注置信度低于0.5的标注;最后将数据集按7:2:1的比例划分为训练集、验证集和测试集。
半自动标注流程如图6所示,研究团队首先手动标注250张样本,然后用这些样本训练YOLOv8n模型,再利用训练好的模型自动标注剩余图像,最后进行人工审查和修正。为提高模型鲁棒性,他们还采用了高斯模糊数据增强技术,将训练样本从250张扩展到500张。
在自动标注过程中,研究团队设置了0.5的置信度阈值,并采用非极大值抑制(Non-Maximum Suppression, NMS)处理重叠检测框。如图8所示,(a)展示置信度阈值低于0.5时出现的多个重叠边界框,(b)显示应用置信度过滤后仅保留准确边界框的效果,显著提高了标注质量。
研究团队采用战略性抽样方法平衡四个源数据集的贡献,避免模型产生"源偏差"。虽然PBC和Raabin-WBC数据集包含数千张高质量图像,但为确保平衡性,各选取500张样本。同时提供元数据文件,记录每张图像的来源数据集和原始URL,便于溯源和重现。
TXL-PBC数据集包含1,260张PNG格式图像和18,143个YOLO格式标注,按7:2:1比例划分为训练集(882张)、验证集(252张)和测试集(126张)。数据集在Figshare和GitHub上公开可用,包含图像文件、标注文件、数据配置文件以及BCCD筛选表、元数据文件和详细的人工标注协议等补充材料。
为验证TXL-PBC数据集的标注质量,研究团队将其与原始BCCD数据集进行对比。如图9所示,(a)和(b)显示原始BCCD数据集中存在红细胞漏标注问题,而(a1)和(b1)展示TXL-PBC数据集中所有血细胞均得到准确标注,成功纠正了原始数据集中的大量标注错误。
研究团队对TXL-PBC数据集进行了全面的统计分析。图10(a)显示标注框的宽度-高度分布,散点图呈现强正相关性,表明细胞保持一致的纵横比,同时数值的广泛分布反映了细胞尺寸的丰富多样性。图10(b)展示归一化边界框中心点的空间分布模式,红细胞(橙色圆圈)分布均匀,白细胞(绿色十字)更集中于中央区域,血小板(蓝色方块)呈分散分布,这反映了血细胞在显微镜视野中的自然分布特征。图10(c)的类别分布显示数据集包含16,302个红细胞(RBC)、1,298个白细胞(WBC)和543个血小板,这一分布虽然数量不平衡,但真实反映了健康人外周血中血细胞的自然比例,具有临床代表性。
研究团队选取六种主流目标检测模型作为基线进行综合评估:YOLOv5s、YOLOv8s、YOLOv11s、SSD300、Faster R-CNN和RetinaNet。所有模型统一设置训练100个周期,批量大小为16,图像尺寸320×320,使用AdamW优化器。性能评估结果显示,YOLO系列模型整体表现优异,mAP50(mean Average Precision at IoU threshold 0.5)约0.98。其中YOLOv8s获得最高整体mAP50(0.978)和mAP50-95(0.864),YOLOv5s在白细胞检测上获得最高精确度(0.994)和F1分数(0.995)。SSD300表现出最高召回率(0.989),Faster R-CNN获得最高整体F1分数(0.929),RetinaNet在白细胞和血小板检测上达到最高召回率(均为1.000)。
图11通过分组柱状图直观比较了各基线模型的整体检测性能,包括mAP50、mAP50-95、精确度、召回率和F1分数。结果表明TXL-PBC数据集在不同类型的检测模型上均能取得稳健的检测性能。
研究结论表明,TXL-PBC数据集通过整合四个公共资源、采用严格的质控流程和半自动标注方法,成功解决了现有血细胞数据集中存在的标注错误和数据稀缺问题。数据集具有高质量的标注、良好的多样性和真实的类别分布,为血细胞检测模型的开发和基准测试提供了重要资源。在六种主流目标检测模型上的基准测试验证了数据集的实用性和鲁棒性,为血液学人工智能研究提供了可靠的数据基础。
该研究的重要意义在于为血细胞检测研究社区提供了一个经过严格质量控制的标准数据集,有助于推动血液学人工智能研究的可重复性和可比性。数据集公开可用且包含详细的元数据和标注协议,便于其他研究者使用和扩展。未来,该数据集可用于血细胞检测模型的开发、评估和比较,也可作为迁移学习的预训练资源,促进血液学人工智能研究的进一步发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号