
-
生物通官微
陪你抓住生命科技
跳动的脉搏
NL-Breast-Screening:基于加拿大人群筛查项目的全视野数字乳腺X线摄影开放数据集助力乳腺癌AI检测技术发展
【字体: 大 中 小 】 时间:2025年08月26日 来源:Scientific Data 6.9
编辑推荐:
本研究针对乳腺癌筛查中人工读片存在的假阳性率高、资源消耗大等问题,开发了NL-Breast-Screening数据集——首个直接来源于加拿大省级筛查项目(含5997例活检确认的四视图FFDM图像),通过标准化DICOM格式提供真实筛查人群分布(含1516例假阳性案例)。该资源为开发可替代传统双读法的AI算法提供了关键训练基础,显著提升筛查效率与准确性,相关成果发表于《Scientific Data》。
乳腺癌作为全球女性第二大癌症威胁,早期筛查被证实可显著降低死亡率。然而现行筛查体系面临双重困境:一方面人工读片存在20%漏诊率,另一方面5%的假阳性率导致不必要的活检与患者焦虑。尽管计算机辅助检测(CAD)技术已应用多年,但其基于亮度/边缘检测的透明机制难以应对乳腺组织复杂性,反而因高频假阳性警报降低筛查效率。近年来AI技术(特别是卷积神经网络)展现出替代传统读片的潜力,但训练数据的局限性严重制约发展——现有公共数据集或样本分布偏离真实筛查人群(如DDSM异常案例占比72%),或缺乏标准化DICOM格式的仪器参数信息。
为此,Memorial University团队联合纽芬兰与拉布拉多健康服务中心,创建了NL-Breast-Screening数据集。该资源包含5997例活检确认的筛查案例(26988张图像),严格遵循真实人群年龄分布与病理比例(阳性率2.5%),所有数据均来自GE Senograph Essential设备采集的标准化DICOM文件(16bit,7.34/4.39Mpx)。通过保留X射线能量、滤光片等设备元数据,该数据集首次实现算法开发与临床设备参数的无缝对接。
关键技术方法包括:1)从省级筛查项目PACS系统获取原始DICOM图像,经HOROS软件匿名化处理;2)病例分类依据活检结果与两年随访验证(正常4332例/假阳性1516例/阳性149例);3)数据按视图(CC/MLO)和侧向性(左/右乳腺)结构化存储,配套CSV文件记录年龄、癌症状态等元数据。
研究结果:
数据集特征:阳性组平均年龄61.9岁显著高于假阳性组(58.9岁),反映真实筛查中年轻群体更易误诊的趋势。图像分辨率与年龄呈负相关(p<0.001),7.34Mpx组捕获更多细微病变。
技术验证:所有案例经三重验证——正常组通过两年无癌随访确认,假阳性组经追加诊断排除,阳性组均获活检证实。DICOM头文件完整保留设备参数(如铑靶/钼靶阳极使用占比96%/4%),支持算法针对不同成像条件优化。
比较优势:相较于DDSM、VinDr等数据集,NLBS更准确反映加拿大筛查人群年龄结构与癌症发病率(如图2所示),其4.6%假阳性率与临床实际高度一致,为开发具有临床适用性的AI模型提供理想测试平台。
该研究突破性地解决了AI乳腺筛查研究的核心痛点——训练数据与临床实践的脱节问题。作为首个开放获取的北美筛查队列数据集,NLBS通过三重验证机制确保标签可靠性,其DICOM原生格式支持从科研到临床的无障碍转化。特别值得注意的是,数据集包含的1516例假阳性案例为优化AI特异性提供珍贵样本,有望显著降低目前CAD系统导致的过度诊疗。未来通过整合CMMD等多元人群数据,可进一步解决算法泛化性挑战,推动AI真正成为乳腺癌筛查的"第二双眼睛"。
生物通微信公众号
知名企业招聘