基于多专家共识的自监督学习在超声心动图左心室分割中的评估与应用

《Computers in Biology and Medicine》：Consensus-guided evaluation of self-supervised learning in echocardiographic segmentation

【字体：大中小】 时间：2025年10月02日 来源：Computers in Biology and Medicine 6.3

编辑推荐：

　　本研究针对超声心动图左心室分割标注成本高、专家间差异大的问题，系统评估了多种自监督学习（SSL）预训练策略。研究发现对比学习（SimCLR）在低标注数据场景下表现最优，仅用15%标注数据训练的AI模型与多专家共识的一致性超过任何单一专家，显著提升分割准确性（Dice系数）和射血分数（EF）估算可靠性，为降低标注依赖、提高临床评估可重复性提供了有效方案。

心血管疾病是全球死亡的主要原因，而超声心动图（Echocardiography, Echo）作为一种非侵入性且安全的诊断工具，被广泛应用于心血管疾病的临床评估。然而，医生对超声图像的手动解读存在观察者内和观察者间的变异性，这可能导致诊断不一致和错误。为了提升诊断准确性并减少对人工评估的依赖，自动化超声解读方法的需求日益迫切，尤其是在左心室（Left Ventricle, LV）分割等关键任务中。准确的左心室分割对于计算左心室射血分数（Ejection Fraction, EF）等关键临床参数至关重要，但传统的深度学习方法依赖于大量标注数据，而标注数据的获取既昂贵又耗时。自监督学习（Self-Supervised Learning, SSL）作为一种有前景的替代方案，能够利用大量未标注图像数据学习有意义的表示，而无需显式标注，从而在仅使用较小标注数据集进行微调时提升模型性能，减轻标注负担。

尽管自监督学习在自然图像处理中表现出色，但其在超声心动图左心室分割中的应用仍面临诸多挑战。选择合适的预训练任务、优化未标注数据的使用以及评估自监督学习模型的有效性都需要仔细考量。与仅依赖像素级指标（如Dice系数）的标准分割任务不同，左心室分割还应使用EF等临床相关指标进行评估。因此，一个稳健的评估框架必须同时结合分割准确性和临床影响，以确保实际应用的可行性。

为了解决这些问题，研究人员在《Computers in Biology and Medicine》上发表了一项研究，系统探索了自监督学习在超声心动图左心室分割中的应用，并引入了一个新颖的多专家标注数据集UnityLV-MultiX，以提升分割评估的可靠性。

研究团队采用了多种关键技术方法。首先，他们构建了多个数据集：Unity数据集（包含1224个心尖四腔超声视频，2801张图像由36名专家标注）、UnityLV-MultiX数据集（外部测试集，包含200张图像，每张由11名专家独立标注，形成共识标注）、以及两个未标注数据集Unlabelled-A和Unlabelled-B（分别包含60,000和100,000帧图像）。共识标注通过B-Spline插值和平均多个专家标注曲线生成，以减少标注噪声。此外，他们还开发了基于Dice系数和归一化均方根偏差（NRMSD）的排名方法，从共识数据集中筛选出专家一致性最高的T100子集（前100张图像）。在自监督学习预训练方面，研究人员比较了多种预训练任务，包括区域掩蔽（Region-Based Masking）、条带掩蔽（Strip-Based Masking）、分割学习（Split-Learning）、随机旋转（Random Rotation）以及对比学习方法（如SimCLR和Barlow Twins）。所有实验均基于U-Net架构，使用Adam优化器和余弦权重衰减调度进行训练，并在不同比例的标注数据（1%至100%）下进行微调，以模拟数据稀缺场景。性能评估不仅包括Dice系数和Intersection over Union（IoU），还涵盖了EF误差等临床指标。

3.1. 分割质量与EF估计的相关性

研究首先分析了分割准确性与EF估计之间的复杂关系。结果表明，较高的Dice系数通常意味着更好的分割准确性，但EF估计仅依赖于掩模大小而非形状或解剖正确性。因此，即使分割较差，只要舒张末期容积（EDV）和收缩末期容积（ESV）估计正确，EF仍可能保持准确。这种解离凸显了在评估模型性能时同时考虑分割质量和临床指标的重要性。

3.2. 有限标注下的性能

在标注数据稀缺（1%）的情况下，自监督学习预训练显示出明显优势，尤其是SimCLR和区域掩蔽方法，在Dice系数上 consistently 超越随机初始化基线（Rand）。随着标注数据比例增加，SSL的益处逐渐减弱，性能在不同方法间收敛。这表明预训练在数据有限场景中尤为有价值。在多专家标注数据集（如Consensus和T100）上评估时，模型表现出更高的Dice分数，说明使用高质量、多专家标注能更准确地评估分割性能。

3.3. 射血分数误差分析

SimCLR在大多数标注数据设置下 consistently 实现最低的EF误差。在5%标注数据时，SimCLR的EF误差为6.93±5.63，显著低于基线（8.80±7.55）和Barlow Twins（13.56±9.27）。随着标注数据增加，EF误差减少，所有方法在100%标注时收敛，但SimCLR仍保持较低误差（5.16±4.18）。盒图显示EF误差变异性随训练样本增加而减少，表明更大数据集有助于更稳定的临床估计。

3.4. 预训练任务的影响

SimCLR的优异表现归因于其通过对比学习学习丰富且可迁移的表示，通过最大化同一图像增强视图间的一致性并推远不同图像，捕获了与领域相关的高级特征。相比之下，Barlow Twins通过去相关目标减少特征冗余，但缺乏负样本可能限制其在细微结构差异重要的领域（如超声心动图）中的判别力。基于旋转的预训练任务表现不佳，因为心尖四腔图像中左心室方向相对一致，旋转预测信息量较低。修复类方法（如区域和条带掩蔽）可能偏向纹理重建而非解剖边界学习，且引入不现实变换（如90度旋转或掩蔽），降低了临床相关性。

3.5. 未标注数据特征

研究发现，增加未标注数据集大小并不总能提升性能，有时甚至因冗余和低变异性而降低表现。在心尖四腔图像中，解剖结构高度一致，大型未标注数据集添加的多样性有限，减少了对比学习的益处。一旦模型从较小、精心策划的数据集中提取最相关特征，添加更多数据会产生收益递减或引入噪声，降低表示质量。数据集分布也影响SSL预训练效果，但其影响因评估指标和下游任务而异。

3.6. AI与个体专家性能比较

AI模型仅使用15%标注数据训练时，在Dice分数上超越所有个体专家，在EF误差上低于10名专家。即使从共识中移除各专家自身贡献进行公平比较，AI模型仍表现出高度竞争性，表明其能够良好泛化。AI模型与11名临床专家的共识一致性超过任何单一专家，提供比个体人类解读更稳定和可重复的评估。

研究结论强调，自监督学习特别是对比学习，能有效提升超声心动图左心室分割的性能，减少对大量标注数据的依赖。多专家共识标注为模型评估提供了更可靠的基准，有助于降低标注噪声和观察者变异性。AI模型表现出与专家共识的高度一致性，甚至超越个体专家，展示了其在提高临床工作流程可重复性和可靠性方面的潜力。这些发现为自监督学习在医学影像分析中的广泛应用奠定了基础，特别是在数据标注成本高和专家意见不一的领域。