当不确定性引导学习：CT影像中肾脏疾病分类的高效方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Big Data》：When uncertainty guides learning: a highly effective approach to kidney disease classification in CT imaging

【字体：大中小】 时间：2026年06月09日 来源：Frontiers in Big Data 2.3

编辑推荐：

　　本研究引入了一种高效的基于熵（Entropy）的主动学习（Active Learning）框架，在仅需极少标注数据的情况下，实现了CT扫描中肾脏异常（正常、囊肿、结石、肿瘤）的出色分类性能。数据集包含12,446张CT切片，通过分层抽样按70/15/15的比例

本研究引入了一种高效的基于熵（Entropy）的主动学习（Active Learning）框架，在仅需极少标注数据的情况下，实现了CT扫描中肾脏异常（正常、囊肿、结石、肿瘤）的出色分类性能。数据集包含12,446张CT切片，通过分层抽样按70/15/15的比例划分为训练集（8,716张）、验证集（1,865张）和测试集（1,865张）。该方法从仅200张随机选择的图像开始，在预训练的ResNet-50骨干网络上采用预测熵（Predictive Entropy）进行不确定性采样，在标准12,446张图像的肾脏CT数据集上经过仅六个查询周期后，五次独立运行达到99.71% ± 0.25%的平均测试准确率（95%置信区间：[99.30, 99.94]）。该方法仅使用2,000张标注训练图像，占8,716张训练部分的22.9%（相对于训练集的完全监督减少了77.1%的标注需求）。这一性能与先前在完整标注训练部分上训练的全监督方法相当或更优，同时展现出显著改善的样本效率，特别是在早期标注周期中，熵引导选择比随机采样收敛显著更快。五次重复运行的统计检验确认结果稳定（Shapiro-Wilk p = 0.148）。该框架表现出卓越的样本效率，如经验拟合的幂律曲线所示，拟合指数为1.2，且经验观察到的不确定性衰减率为0.92。这些结果既为标注效率提供了实践洞见，也在医学影像领域具有重要应用价值。

本研究旨在解决医学影像领域中深度学习方法面临的核心瓶颈——专家标注成本高昂严重制约了模型发展。慢性肾脏病（Chronic Kidney Disease, CKD）影响着全球超过十分之一的成年人口，同时肾细胞癌（Renal Cell Carcinoma, RCC）占成人癌症的3%，泌尿系结石在高收入国家约12%的人口一生中会发病，这些因素共同对医疗系统造成巨大压力。CT（Computed Tomography）作为肾脏问题诊断的最常用方法，具有高分辨率和快速获取精确解剖数据的优势，但其价值直接依赖于医师的专业水平。深度学习技术虽已在胸部X光肺炎检测、皮肤病变分类等任务中展现潜力，但医学领域的专家标注成本极高，往往是自然图像标注成本的100至1000倍，这迫切需要更高效的标注策略。

研究人员提出了一种基于预测熵的主动学习框架，结合ImageNet预训练的ResNet-50模型，用于肾脏CT切片的四分类任务（正常、囊肿、结石、肿瘤）。研究得出结论：仅使用2,000张标注图像（占训练集的22.9%）即可达到99.71% ± 0.25%的平均测试准确率，与全监督基准相当或更优，同时实现了77.1%的标注量减少。该研究的重要意义在于为临床影像深度学习提供了实用且高效的标注路径，尤其在早期标注预算受限的场景中具有突出价值。论文发表在《Frontiers in Big Data》。

本研究采用的主要关键技术方法包括：基于预测熵（Predictive Entropy）的不确定性采样策略，该策略通过单次前向传播获取softmax输出分布的香农熵（Shannon Entropy）来量化模型不确定性；使用ImageNet预训练的ResNet-50作为特征提取骨干网络，利用迁移学习（Transfer Learning）获取通用视觉表征；以及动态迭代的主动学习循环，每周期从未标注池中选取熵值最高的样本进行标注并扩充训练集。数据集来源为公开的CT-KIDNEY-DATASET-Normal-Cyst-Tumor-Stone，包含12,446张轴位CT切片，通过分层抽样形成三划分。

研究结果部分按照原文结构呈现如下：

**框架性能表现**：该框架在仅六个查询周期内即达到卓越性能。从200张初始标注样本开始，验证准确率从60.64%逐步提升至99.68%（1,400张样本时），最终在2,000张样本时达到99.71% ± 0.25%的测试准确率（95% CI: [99.30, 99.94]）。综合评估指标显示，平衡准确率为99.61%，宏F1分数（Macro F1-Score）为99.67%，加权F1分数（Weighted F1-Score）为99.73%，Cohen's Kappa系数为0.9962，马修斯相关系数（Matthews Correlation Coefficient, MCC）为0.9962，宏平均AUC-ROC（Area Under the Receiver Operating Characteristic Curve）为0.9999。学习动态符合数学可预测的模式，验证准确率呈饱和指数增长：A(t) = 99.8 - (99.8 - 60.6)e^-0.85t，池不确定性呈指数衰减：H?(t) = 0.916e^-0.92t，表明不确定性每周期约减少60%。

**多次运行统计分析**：为验证结果可靠性，研究人员进行了五次独立重复实验，采用不同随机种子控制初始种子集选择和训练随机性。结果显示五次运行测试准确率分别为99.84%、99.36%、99.89%、99.62%和99.84%，Shapiro-Wilk检验（p = 0.148 > 0.05）与正态性一致，但鉴于样本量仅为五次，该检验应描述性解读而非作为确定性正态性检验。更可靠的证据来自五次单独运行结果的透明报告，直接展示了跨运行的变异性。

**误分类深度分析**：最佳运行（Run 3, seed 1002）中总错误数为1,865张测试图像中的2张（0.11%）；五次运行平均错误数为29张（1.56%）。最常见混淆发生在正常与肿瘤类之间，两者在CT上共享细微纹理特征。结石类错误集中于早期周期，在熵引导查询后显著减少。误分类样本的平均预测置信度为0.54 ± 0.11，表明模型对错误预测不自信，超过80%置信度的错误预测占比低于2%，说明不确定性估计具有信息价值。各类别平均准确率分别为：囊肿99.9%、正常99.7%、结石99.8%、肿瘤99.6%。

**查询样本特征分析**：第一查询周期中，300张查询样本的类别分布为：结石75.7%（227/300）、囊肿20.0%（60/300）、肿瘤3.3%（10/300）、正常1.0%（3/300），这与周期0时结石准确率仅34.6%（表5）一致，表明模型正确识别并集中标注努力于最不理解类别。查询批次的不确定性统计为：平均熵1.34 ± 0.02比特（接近最大2比特）、平均边际（Margin）0.080 ± 0.057、平均置信度0.353 ± 0.037，25%的查询样本为边界样本（边际分数最低四分位数），零样本置信度超过0.90。随着训练推进，查询样本分布逐渐均匀，至周期4时平均熵低于0.1比特。

**消融研究**：在模型架构比较中，ResNet-50在相同训练策略下达到99.73%准确率，包含23.5M参数和4.1 GFLOPs计算量，优于EfficientNet-B0（83.7%准确率）和自定义CNN（78.5%准确率）。学习率敏感性分析显示1 × 10^-4实现最高验证准确率99.6%和稳定训练动态，更高学习率导致验证指标不稳定。批量大小选择研究表明32为最佳综合权衡，在500图像子集上达到99.2%验证准确率，同时训练速度比小批量快2-4倍且内存使用在1,288 MB以内。数据增强策略比较证实完整增强（随机水平翻转、旋转、亮度/对比度调整）虽训练损失略高（0.0731），但验证准确率最高（99.2%），反映其正则化效应减少过拟合。

**与随机采样基线的统计比较**：熵引导采样在2,000样本预算时达到99.71% ± 0.25%，随机采样基线为99.37% ± 0.36%，配对t检验（p = 0.147）未达统计显著性。然而，熵采样的核心优势在于早期周期样本效率：500张标注样本时（周期1），熵采样平均验证准确率达93.1%，而随机采样约55%——差距约38个百分点。这一效率优势在标注预算严格限制于1,000张以内的场景中尤为关键。

**与最先进方法的比较**：与全监督基线相比，该框架用22.9%训练标注达到99.71%准确率，匹配或超越VGG-16（96.50%）、Inception-v3（97.80%）、ResNet-50（98.45%）、EfficientNet-B4（98.92%）、ResNet-101 + FL（99.15%）、ViT（99.30%）及集成方法（99.35%）等全监督方法。与半监督方法FixMatch相比，使用25%标注时FixMatch准确率为97.80%，而该框架在12.6%标注（1,100张，周期3）时已达98.23%，在16.1%标注（1,400张，周期4）时达99.68%。经验拟合的幂律关系为ε(n) = 0.27% + 39.4%·n^-1.2，拟合指数α = 1.2表明误差下降比随机采样的典型α ≈ 0.8更陡峭。

讨论部分，研究人员分析了方法成功的多重因素：肾脏病变在CT上具有独特视觉特征（结石为锐利高密度灶、囊肿为光滑低密度区、肿瘤为形态不规则伴不均匀强化），便于模型区分；ImageNet预训练使网络能迁移基础视觉特征识别能力；预测熵作为计算高效的不确定性代理，仅需单次前向传播即可获取。同时研究坦承了多项局限性：当前为切片级分类，未处理同一患者多切片聚合的临床部署需求；CT-KIDNEY-DATASET为相对干净的基准数据集，且缺乏明确患者标识符导致无法完全排除同一患者切片间的残余相关性，可能高估性能估计；所有实验在单一数据集上进行，未验证跨数据集、成像协议、扫描仪类型或患者人群的泛化能力；低对数损失与良好校准一致但非正式证明，需预期校准误差（Expected Calibration Error, ECE）和可靠性图进行确定性评估；确定性softmax分类器的熵分数反映分布不确定性而非形式化贝叶斯认知不确定性；最终预算点熵采样与随机采样的差异未达统计显著性（p = 0.147），优势主要体现在早期周期；ResNet-50的计算需求（4.1 GFLOPs）虽兼容标准研究硬件，但尚未在临床工作站进行正式延迟基准测试。

研究结论部分翻译如下：本研究的发现证明，熵驱动的主动学习与ResNet-50模型相结合，可为肾脏CT扫描产生近乎完美的分类性能。在五次独立运行中，仅使用2,000张标注图像（8,716张训练部分的22.9%，相对于训练集的完全监督减少了77.1%的所需标注）即达到99.71% ± 0.25%的平均测试准确率（95% CI: [99.30, 99.94]）。通过将标注工作集中于最富信息量的样本，研究人员匹配或超越了领先的全监督模型，同时大幅减轻了标注负担。所有五次运行汇总的逐类误分类分析证实，错误罕见、置信度低，且集中于视觉模糊病例（如正常与肿瘤），这与不确定性感知系统的预期行为一致。基于熵的获取函数在早期主动学习周期中提供了清晰的样本效率优势；在该接近性能上限的机制中，相对于随机采样的最终准确率差异未达到统计显著性，这一局限性已得到承认。该框架的计算需求与标准研究硬件兼容，尽管在临床部署条件下的正式延迟基准测试仍有待未来工作完成。未来工作应处理患者层级预测聚合、外部数据集验证、正式校准分析（ECE、可靠性图），以及应用更严谨的贝叶斯不确定性量化方法以支持最终的临床部署。

联系信箱：

粤ICP备09063491号

热点排行