
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于平衡伪标签的医学图像分类半监督学习框架(BPSSL)研究
【字体: 大 中 小 】 时间:2025年05月23日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
针对医学图像标注成本高、现有半监督学习(SSL)方法忽视伪标签不确定性的问题,研究人员提出平衡伪标签半监督学习框架(BPSSL),通过置信度与不确定性互补的平衡伪标签选择(BPS)策略,在LC25000肺癌和OCT-41视网膜数据集上实现99.27%-99.69%的准确率,接近全标注效果,为稀缺医疗数据的高效利用提供新范式。
在人工智能辅助医疗诊断的时代,医学图像分类是支撑临床决策的核心技术。然而,训练深度神经网络需要海量标注数据,而医学图像的标注依赖专业医师知识,导致标注成本居高不下。尽管医院存有大量未标注影像,现有半监督学习方法在医疗领域应用时存在明显局限:传统一致性正则化对医学图像数据增强不敏感,而主流伪标签方法仅依赖置信度筛选,既可能保留高置信错误标签,又因筛选过严浪费宝贵数据。如何让AI模型像资深医师那样"自知其不知",成为突破医疗数据瓶颈的关键。
针对这一挑战,中国研究人员开发了平衡伪标签半监督学习框架(BPSSL)。该研究创造性地将不确定性量化引入伪标签筛选过程,提出平衡伪标签选择(BPS)算法,使置信度与不确定性形成动态互补机制。通过这种"既大胆假设又小心求证"的策略,BPSSL在仅50%标注率下,于肺癌病理切片(LC25000)和视网膜OCT-41图像分类任务中分别取得99.27%和99.69%的准确率,几乎追平全标注效果。相关成果发表于《Biomedical Signal Processing and Control》,为降低医疗AI落地门槛提供了创新解决方案。
研究采用三项关键技术:1) 基于卷积神经网络(CNN)的双分支架构,同步输出分类置信度与不确定性估计;2) 平衡伪标签选择(BPS)算法,通过动态阈值协调置信度与预测熵的关系;3) 渐进式课程学习策略,随训练过程逐步放宽筛选标准。实验使用LC25000肺癌结肠癌数据集、OCT-4视网膜分层图像及MHIST组织病理数据集验证性能。
【Related work】
系统分析了现有伪标签方法的局限性,指出医疗图像的特殊性要求筛选策略必须兼顾质量与数量。传统方法如FixMatch仅用置信度筛选,而BPSSL创新性地引入预测不确定性作为互补指标。
【Method】
BPS算法通过以下公式实现平衡筛选:
筛选阈值 = α×置信度 + (1-α)×(1-不确定性)
其中α随训练轮次动态调整。这种设计既避免早期训练中高置信错误标签的干扰,又防止后期过度筛选导致数据浪费。
【Experiments】
在LC25000数据集上,BPSSL以50%标注率取得99.27%准确率(全标注为99.76%);OCT-4数据集上更达到99.69%,与全标注持平。对比实验显示,BPSSL显著优于FixMatch、UPS等现有方法,尤其在少量标注数据场景下优势明显。
【Discussion】
研究揭示医疗图像分类中两个关键现象:1) 高置信预测仍可能存在错误,需不确定性指标辅助判断;2) 不同疾病类型的图像存在最佳α参数组合,验证了动态平衡策略的必要性。
【Conclusion】
BPSSL框架通过量化伪标签不确定性,建立置信度与不确定性的动态平衡机制,实现三大突破:1) 在LC25000和OCT-41数据集上接近全标注性能;2) 显著降低对标注数据的依赖;3) 为医疗小数据场景提供通用解决方案。该研究由Yufei Gao、Xinshu Zhang等学者完成,获国家自然科学基金(62006210, 82402395)支持,其技术路线可扩展至其他医学影像分析领域。
生物通微信公众号
知名企业招聘