编辑推荐:
【编辑推荐】为评估卷积神经网络模型 SpineNet 与放射科医生腰椎间盘退变(DD)视觉分级的一致性,研究人员对 19 名男性志愿者开展 14 年随访 MRI 研究,采用 Pfirrmann 分类评估 DD。结果显示两者存在差异但具一定一致性,提示 AI 可作为辅助工具,需优化算法。研究为 AI 在影像学评估中的应用提供新依据。
腰椎间盘退变(Lumbar Disc Degeneration, DD)是引发全球慢性下腰痛(Low Back Pain, LBP)的重要原因之一,其精准评估对临床诊疗和病理机制研究至关重要。目前,磁共振成像(Magnetic Resonance Imaging, MRI)结合 Pfirrmann 分类是评估 DD 的金标准,依赖放射科医生的视觉判读,存在主观性强、效率低等局限。随着人工智能(Artificial Intelligence, AI)技术的发展,基于卷积神经网络(Convolutional Neural Network, CNN)的深度学习模型为自动化影像分析提供了新方向。然而,现有 AI 模型在 DD 分级中的长期可靠性,尤其是在纵向研究中的表现尚未明确。
为填补这一空白,芬兰赫尔辛基大学及赫尔辛基大学医院(University of Helsinki and Helsinki University Hospital)的研究团队开展了一项为期 14 年的纵向研究,旨在对比开源深度学习模型 SpineNet 与放射科医生对腰椎 DD 的分级一致性。该研究成果发表于《European Spine Journal》,为 AI 在腰椎退行性病变评估中的临床应用提供了关键证据。
研究技术方法
研究纳入 19 名男性志愿者,均为早年因腰痛从军队退役的受试者,分别在 37 岁(基线)和 51 岁(随访)时接受腰椎 MRI 检查。采用 Pfirrmann 分类系统,由两名肌肉骨骼放射科医生(含第一作者 Niko Murto)对 T2 加权矢状位图像进行视觉分级,并计算 Pfirrmann 总分(Pfirrmann Summary Score, PSS)。同时,使用 SpineNet V2 模型自动分析相同影像数据。通过 kappa 系数(κ)、一致性相关系数(Concordance Correlation Coefficient, CCC)评估模型与医生之间的分级一致性,以及两名医生的观察者间一致性。
研究结果
1. 观察者间一致性
两名放射科医生的分级一致性较高,kappa 值在 0.73-0.96 之间,PSS 的 CCC 值基线为 0.83,随访为 0.78,表明人工视觉分级具有较好的可靠性。
2. SpineNet 与放射科医生的分级差异
SpineNet 在 L1/2-L3/4 节段常将正常椎间盘(Pfirrmann 1 级)误判为退变较轻的 2 级或 3 级,而放射科医生未在该年龄组观察到 1 级椎间盘。此外,模型在 L4/5 和 L5/S1 节段过度诊断 5 级退变(严重退变),部分病例将 3 级误判为 5 级。基线和随访时,SpineNet 与医生的平均 kappa 值分别为 0.74 和 0.68,显示中等至 substantial 一致性,但 PSS 的 CCC 值仅为 0.54,提示整体评分一致性较差。
3. 纵向变化趋势
两者均观察到 DD 随年龄进展的趋势,PSS 均值从基线到随访显著增加(医生:13.5→16.8;SpineNet:12.2→15.4)。尽管存在个体差异,模型在跟踪退变进展的方向上与人工评估一致,4 个椎间盘的 SpineNet 评分出现逆向变化,医生评估中则有 2 个,显示模型在稳定性上仍有提升空间。
研究结论与讨论
本研究证实,SpineNet 与放射科医生在腰椎 DD 分级中存在 fair to substantial 一致性,尤其在 L4/5 和 L5/S1 等临床关注的关键节段表现较好,但在轻中度退变(1-3 级)和严重退变(5 级)的判读上存在显著分歧。模型对正常椎间盘的过度诊断可能与训练数据偏差有关(其训练集主要包含 51 岁以上有症状人群),而对严重退变的高估则需结合临床影像特征进一步优化算法。
研究意义在于:①首次在纵向队列中验证 SpineNet 的长期性能,证实其作为辅助工具用于 DD 进展监测的潜力;②揭示 AI 模型在不同退变阶段的局限性,为算法优化提供方向;③强调在临床实践中,AI 需与医生经验结合,尤其在复杂病例(如脊柱滑脱、解剖变异)中不可替代人工判读。未来研究需扩大样本量、纳入多中心数据,并探索 AI 在多模态影像分析中的应用,以推动精准医疗发展。
本研究为腰椎 DD 的智能化评估奠定了基础,提示 AI 与放射科医生的协同模式将成为提升影像诊断效率和标准化的重要路径,但其广泛应用仍需算法迭代和临床验证。