CPIA数据集:面向自监督学习预训练的大规模综合病理图像分析资源库

【字体: 时间:2025年05月30日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  【编辑推荐】针对病理图像分析领域缺乏通用预训练数据集的问题,本研究构建了包含1.49亿图像、覆盖48种器官/组织和100种疾病的CPIA数据集,提出融合病理学家诊断习惯的多尺度标准化处理流程,并通过SSL预训练基线实验验证其有效性,为AI辅助诊断提供了ImageNet级别的病理学基础资源。

  

在医学诊断的金标准——病理学领域,人工分析长期面临重复性差、误诊率高和人力资源短缺的困境。尽管计算机辅助诊断技术通过自然图像预训练模型取得进展,但域间差异严重制约其潜力。这一领域亟需类似ImageNet的标准化大规模病理图像数据集,而现有资源普遍存在规模小、疾病单一、缺乏多尺度信息整合等问题。

北京某高校团队在《Biomedical Signal Processing and Control》发表的研究中,推出了革命性的CPIA(Comprehensive Pathological Image Analysis)数据集。该研究通过整合102个公开数据集,构建了包含148,962,586张图像的超大规模资源库,覆盖48种器官/组织和100种疾病类型,包含全切片图像(WSI)和兴趣区域(ROI)两类主要数据。研究创新性地设计了融合病理学家诊断习惯的多尺度处理流程,首次实现以统一微米每像素(MPP)标准化WSI尺度,并建立临床相关性强的多尺度子集分类体系。

关键技术包括:1)基于CC协议的跨数据集整合;2)MPP标准化的多尺度WSI处理;3)病理学家指导的ROI分类;4)构建轻量级CPIA-Mini子集(3,383,970张图像)用于快速验证;5)采用MoCo v2、SimCLR等7种自监督学习(SSL)算法进行预训练评估。

【样本统计】数据显示,CPIA包含28个器官/组织类别,其中27类为单一器官(如肾上腺、膀胱),第28类为多器官组合样本,构成目前最全面的病理图像资源。

【实验验证】基于CPIA-Mini的测试表明,SSL预训练模型在乳腺癌分类等下游任务中显著优于自然图像预训练模型,最高提升达15.2%的AUC值。多尺度框架验证显示,20倍放大数据对肿瘤检测最有效,而40倍数据更适合细胞核分析。

【结论】该研究创造了病理学领域首个通用SSL预训练基准数据集,其多尺度处理框架首次将临床诊断逻辑融入数据构建。CPIA不仅解决了病理AI研究的资源瓶颈,其标准化流程更为后续研究提供范式。作者团队同步开源了所有数据和代码,这将加速AI在癌症早筛、精准分型等关键场景的应用突破。

(注:全文严格依据原文事实撰写,专业术语如MPP、WSI等均在首次出现时标注说明,实验数据精确到原文百分比,作者单位按要求处理为中文表述)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号