
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于3D全身摄影的皮肤区域图像数据集iTBoSo:推动人工智能在皮肤病变检测中的突破性应用
【字体: 大 中 小 】 时间:2025年08月19日 来源:Scientific Data 6.9
编辑推荐:
针对现有皮肤病变数据集缺乏周围皮肤背景信息的局限,研究人员通过3D全身摄影技术(VECTRA WB360)构建了包含16,954张皮肤区域图像的iTBoSo数据集。该数据集提供精确的病变边界框标注及解剖位置、年龄组等元数据,为开发基于AI的皮肤癌早期检测算法提供了关键资源,特别有助于非临床环境下的皮肤病变定位研究。
在皮肤癌诊断领域,人工智能技术正迎来革命性突破,但现有公开数据集大多只包含孤立病灶的中心裁剪图像,这种"只见树木不见森林"的局限严重制约了AI模型的临床应用。传统皮肤镜图像虽然能清晰显示病灶细节,却需要专业设备和操作技能,难以在社区医疗场景推广。更关键的是,缺乏周围皮肤背景信息使算法无法学习病变与健康组织的对比特征,就像让医生只看病理切片而忽略患者整体临床表现。
针对这一技术瓶颈,来自西班牙巴塞罗那医院诊所(Hospital Clinic Barcelona)和澳大利亚昆士兰大学(The University of Queensland)的跨国研究团队,在《Scientific Data》发表了开创性的iTBoSo数据集。该研究通过创新的3D全身摄影技术,首次构建了包含16,954张皮肤区域图像的标准化资源,每张图像对应7×9cm皮肤区域并标注所有可疑病变的边界框,同时提供解剖位置、年龄组和日光损伤评分等关键元数据。这项工作为开发新一代皮肤病变检测算法奠定了重要基础,特别有助于推动AI技术在初级医疗场景的应用。
研究团队采用三项核心技术方法:1)使用VECTRA WB360系统的92个摄像头进行标准化3D全身图像采集;2)通过3D虚拟化身坐标映射提取2D皮肤区域图像(1090×890像素);3)建立由医学专业人员参与的层级标注流程,包括ISAHIT公司的25名标注员和临床医生的三级质量验证。数据来自巴塞罗那(51例)和布里斯班(49例)两个中心的100名受试者,重点覆盖躯干和四肢区域。
【数据生成方法】研究采用三阶段流程:数据收集阶段通过VECTRA WB360系统捕获全身图像,并利用WebTilingTool从3D虚拟化身提取2D皮肤区域;数据标注阶段由专业团队在V7 Darwin平台完成病变标注和日光损伤分级;公开子集选择阶段采用分层抽样策略,参考Wallace九分法平衡解剖区域分布。
【技术验证】所有标注均经过皮肤病专家团队的人工复核,发现并修正了约12%的初始标注错误,最终由三位皮肤科医生独立验证,进一步修正9%的标注,确保数据质量达到临床研究标准。
【数据记录】公开数据集包含8,473张训练图像和8,481张测试图像,按4:1比例保持病变/非病变图像平衡。数据集提供PNG格式图像及YOLO/COCO两种标注格式,特别包含用于隐私保护的修复区域掩模信息。解剖分布显示躯干占38%,四肢均衡分布,患者性别比例接近1:1。
这项研究突破了传统皮肤镜数据集的局限,首次提供了病变在自然解剖环境中的全景视图。与HAM10000等经典数据集相比,iTBoSo的创新价值体现在三个方面:1)多病灶标注能力,平均每张病变图像包含4-5个标注;2)临床背景信息整合,包括解剖位置和日光损伤评分;3)标准化采集流程,确保图像质量的一致性。研究团队特别注重隐私保护,通过面部自动检测和纹身修复技术,在提供丰富临床信息的同时符合GDPR要求。
该数据集的发布将显著推动皮肤癌AI检测技术的发展,特别是对于开发能在智能手机等移动设备上运行的轻量级模型具有重要价值。未来研究可在此基础上探索多模态数据融合、病变演变追踪等方向。正如研究者指出,这种"皮肤区域而非孤立病灶"的数据范式,将帮助AI系统学习更接近人类医生的诊断思维,最终实现从实验室到社区医疗场景的技术转化。
生物通微信公众号
知名企业招聘