
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于YOLOv9-AID的腰椎间盘退变智能诊断:Pfirrmann分级、椎间盘突出、高信号区与许莫氏结节的同步检测与性能突破
【字体: 大 中 小 】 时间:2025年09月11日 来源:Frontiers in Bioengineering and Biotechnology 4.8
编辑推荐:
本研究创新性地开发了YOLOv9-AID检测网络,通过SlideLoss函数平衡高低质量样本权重、空间-通道协同注意力模块(SCSA)强化病灶特征提取、以及基于ExtraDW的ResNCSPELAN4模块重构,实现了腰椎MRI中Pfirrmann分级(I-V)、椎间盘突出(膨出/突出/脱出)、高信号区(HIZ)和许莫氏结节(Schmorl's nodes)的同步精准检测。模型在内部测试集达到mAP5082.8%和总体检测精度80.3%,其中许莫氏结节检测精度达92.9%,Pfirrmann分级准确率93.3%,椎间盘突出检测提升8.4%。外部验证显示优异泛化能力,为临床提供高效、一致的智能诊断工具。
引言
腰椎间盘作为脊柱重要的机械缓冲结构,其退行性变已成为全球致残的主要原因之一。流行病学研究显示约80%的成年人会因椎间盘病变经历至少一次腰痛,其中腰椎间盘退变(LDD)和腰椎间盘突出(LDH)是最常见的病理基础。这些疾病不仅通过慢性疼痛显著影响患者生活质量,还会因活动受限导致劳动能力丧失,造成重大社会经济负担。临床诊断高度依赖磁共振成像(MRI),但传统人工判读存在明显局限:放射科医生需在T2加权像(T2-WI)上逐层分析椎间盘高度和信号强度等特征,每例平均评估时间达14-19分钟,且观察者间对Pfirrmann分类的一致性仅处于中等水平(kappa值0.66-0.89)。更关键的是,全球放射科医生增长率显著落后于影像检查需求的增长,培训能准确识别椎间盘突出、高信号区(HIZ)和许莫氏节点的专家通常需要5-7年临床经验。因此,开发LDD自动检测算法不仅有望将诊断时间缩短至秒级,还能通过深度学习模型保持专家级读片一致性(分类准确率>85%),对优化医疗资源配置、实现早诊早治具有重要临床价值。
在LDD诊断领域,深度学习影像算法已广泛采用YOLO系列模型进行目标检测。作为单阶段实时目标检测算法,YOLO的核心优势在于通过端到端训练将目标检测任务转化为回归问题,从而实现高检测速度与良好准确性的平衡。为确保计算效率,YOLO模型通常使用边界框标注目标区域。尽管这种方法简化了标注过程,但朴素YOLO模型存在明显局限性。首先,现有方法未充分考虑目标区域内纹理特征的权重分布。在腰椎MRI图像中,关键病理特征——如与Pfirrmann分级、椎间盘突出、HIZ和许莫氏结节相关的区域——常呈现局部化且独特的纹理特征。YOLO模型中传统的矩形边界框标注易导致注意力分散,使模型难以有效聚焦于有诊断价值的微结构。例如,在LDD分类任务中,髓核与纤维环的纹理差异对准确分类至关重要,但矩形分类框会引入大量无关背景噪声。其次,医学数据集的稀缺性进一步加剧了训练挑战。现有研究大多依赖小规模数据集,且标注过程需要专业放射科医生的专业知识,导致成本高昂。这种数据限制使模型容易过拟合,尽管YOLO系列模型(如YOLOv5和YOLOv8)已引入注意力机制和残差模块等改进,但在有限数据条件下仍难以充分学习复杂病理特征的空间关联。因此,在医学数据集稀缺的约束下,开发能聚焦关键纹理区域同时保持训练效率和诊断准确性的新型YOLO架构,已成为提升自动化LDD诊断性能的关键突破。
材料与方法
本研究依据诊断准确性报告标准(STARD)进行并报告,遵循赫尔辛基宣言原则,获得机构审查委员会批准(EC-LCKY2025043)。作为不涉及额外干预或个人数据披露的回顾性研究,免除知情同意要求。
这项回顾性研究纳入222名因腰痛或根性腿痛就诊的成年患者(年龄≥18岁),产生1110张去标识矢状位T2加权图像(每例5张)。排除有脊柱创伤史、恶性肿瘤或脊柱转移瘤、既往腰椎手术、先天性脊柱侧凸(Cobb角>10°)或存在妨碍解剖学解释的影像伪影的病例后,202例(1010张图像)被随机分为训练集、验证集和内部测试集(8:1:1),其余20例(100张图像)构成外部数据集用于泛化评估。为模拟涉及跨厂商和多中心数据的真实临床场景,内部和外部数据集均使用不同制造商的MRI扫描仪采集:内部数据集使用uMR 660 1.5T MRI扫描仪(联影医疗,上海),外部验证数据集使用Siemens Avanto 1.5T MRI扫描仪(西门子医疗,德国)。所有数据均在同一机构(吉首大学第一附属医院)采集,通过使用不同MRI系统引入技术异质性控制人群差异,两组患者无重叠。
数据标注由两名独立工作的认证放射科医生(>6年经验)进行盲法评估,分歧由高级放射科医生仲裁。所有标注使用LabelImg软件完成。诊断标注参考标准包括:使用Pfirrmann分类系统将LDD分为五个等级(I级:髓核均匀高信号,髓核-纤维环分界清晰,椎间盘高度正常;II级:髓核轻度低信号±水平带征但边界定义保留;III级:髓核显著低信号,髓核-纤维环界面模糊,可能伴轻度高度减少;IV级:髓核-纤维环完全融合伴信号消失;V级:弥漫性低信号和严重椎间盘塌陷)。椎间盘突出根据2014年北美脊柱学会(NASS)、美国脊柱放射学会(ASSR)和美国神经放射学会(ASNR)共识命名法分类,将膨出定义为环状延伸≤3mm超出椎体边缘,突出为局灶性延伸>3mm且基底宽于突出部分,脱出为突出物质在上下维度上超过基底宽度。HIZ被识别为T2-WI上低信号纤维环内的局灶高信号区域,与髓核 distinct且 exhibiting higher signal intensity。同时,许莫氏结节表现为终板凹陷或骨内结节性病变的椎体内突出。基于以上参考标准,将所有椎间盘分为10个 distinct病理类别。
方法
为增强YOLOv9在医学影像中的细粒度病灶识别能力,特别是针对MRI中LDD检测涉及小目标、低对比度和强干扰的挑战性任务,我们提出名为YOLOv9-AID的新架构。具体而言,我们设计EDWRepNCSPELAN4模块改进骨干网中的特征融合,实现更有效的多尺度上下文信息提取与整合;引入SCSA模块,将结构感知增强嵌入关键层,从而加强模型对关键空间和语义特征的关注;此外,采用SlideLoss自适应加权损失函数,动态解决训练中简单与困难样本之间的不平衡问题以稳定收敛并提高检测精度。
改进的特征提取-融合模块
我们提出EDWRepNCSPELAN4作为新模块替代骨干网中的原始RepNCSPELAN4,从而构建平衡轻量化设计与强表征能力的特征提取架构。RepNCSPELAN4结合跨阶段部分网络(CSPNet)的分割-拼接策略与高效层聚合网络(ELAN)的梯度路径优化聚合,平衡学习能力和多尺度特征融合。具体而言,给定输入特征图X∈RW×H×C,RepNCSPELAN4首先应用1×1卷积产生y0,接着两个级联的RepNCSPELAN块阶段——每个由复制邻接通道-空间池化单元后接3×3卷积组成——生成逐步更深特征y1和y2。最后,{y0, y1, y2}沿通道维度拼接并通过最终1×1卷积合并,产生模块输出。为增强表征能力而不显著增加计算,我们将RepNCSPELAN4中的每个3×3卷积替换为通用逆瓶颈(UIB)模块的ExtraDW块变体,产生EDWRepNCSPELAN4。ExtraDW块遵循DepthWise–PointWise–DepthWise–PointWise序列:初始深度wise 3×3卷积扩展感受野,点wise 1×1卷积按因子α扩展通道维度,第二个深度wise 3×3卷积进一步丰富空间上下文,最终点wise 1×1卷积将特征投影回原始通道数。通过将ExtraDW块嵌入CSP-ELAN融合框架的残差路径,EDWRepNCSPELAN4加深网络并扩大有效感受野,同时保持参数和FLOP开销适度。这种混合设计利用深度可分离卷积的空间-通道解耦和瓶颈扩展原理,产生更丰富、更具判别力的特征表示。因此,模型能更精确聚焦显著目标区域,抑制背景干扰,最终在不牺牲实时性能的情况下实现更高检测精度。
空间-通道注意力增强
在基于MRI的LDD诊断中,许莫氏结节和HIZ检测等挑战因目标尺寸小、对比度低而构成显著难题。同时,Pfirrmann分级和突出分类面临固有局限,包括高类间相似性、复杂背景干扰和噪声伪影,均对识别准确性产生不利影响。为解决这些问题,我们在YOLOv9的第5和第11层引入SCSA。该新颖模块采用多尺度深度wise共享卷积捕获多语义空间信息,通过注意力分配策略性地加权中央椎间盘区域,并有效整合全局上下文依赖。此外,它结合输入自适应自注意力机制以 refine 目标相关通道特征,从而缓解空间配置中的语义差异同时保持解剖结构感知。
SCSA包含两个互补子模块:共享多语义空间注意力(SMSA)首先将输入特征图X∈RB×C×H×W沿高度和宽度池化产生单向描述符XH∈RB×C×W和XW∈RB×C×H。然后将每个描述符分割为四个通道组{XHi, XWi}i=14并通过共享深度wise 1D卷积(核尺寸3、5、7、9)捕获多语义空间线索。最后,卷积子特征被拼接,通过GroupNorm(4组)归一化并经sigmoid激活产生空间注意力图AttnH和AttnW。精炼的空间输出由Xs=AttnH⊙AttnW⊙X给出。渐进通道自注意力(PCSA)将SMSA输出Xs下采样为Xp,然后通过三个深度wise 1×1卷积线性投影为查询Q、键K和值V。随后计算单头自注意力Xattn=Softmax(QKT/√C)V捕获全局上下文。最终池化为每通道标量后经sigmoid门控重新加权空间输出,得到Xc=Xs⊙σ(Pool(Xattn))。
通过解耦空间和通道维度、利用多尺度深度wise卷积和整合自注意力,SCSA扩展有效感受野,自适应强调中央椎间盘区域,并调和语义差异——从而改进细微病理(如许莫氏结节)检测,消除高相似性类别(如Pfirrmann等级)歧义,并抑制背景噪声。重要的是,SCSA以最小添加复杂度实现此目标,在准确性、推理速度和模型大小间取得平衡。
损失函数优化
损失函数是量化模型预测误差的数学工具,在深度学习中占据核心地位。在模型训练过程中,损失函数计算模型预测输出与实际标签之间的差异或损失值,直观反映模型性能。
YOLOv9采用交并比(IoU)衡量预测边界框与真实框之间的差异。IoU计算定义为IoU(P,G)=area(P∩G)/area(P∪G),其中P为预测边界框,G为真实框。然而,在传统损失函数中,所有样本被分配相同损失权重,可能导致训练过程中模型过度关注简单样本而忽视困难样本。
因此,我们引入新损失函数SlideLoss。这是一种自适应加权损失函数,通过为IoU范围内样本分配不同权重,有效缓解简单与困难样本间的不平衡。SlideLoss的权重函数定义为f(x)=1 if x≤μ-0.1; e1-μ if μ-0.1<><μ;>μ;>1-x if x≥μ,其中μ是所有边界框IoU的平均值。SlideLoss函数基于IoU值区分简单与困难样本,并使用其平均值μ作为阈值。IoU小于μ的样本被分类为负样本,而IoU大于μ的样本被分类为正样本。
由于大多数图像处理任务不平衡,简单样本远多于困难样本,SlideLoss函数有效解决样本不平衡问题,鼓励模型在训练中更多关注困难样本。同时,阈值μ的自动计算减少了手动设置超参数的难度,增强了模型适应性。因此,SlideLoss函数的加入使模型能更好学习困难样本特征,提高其泛化能力。
实验与结果
环境配置与参数设置
本研究所有实验在Windows 10操作系统、Intel i9-10920X CPU和NVIDIA GeForce RTX 3090 GPU上进行。软件环境包括Python 3.8、PyTorch 2.3.1和CUDA 11.8。为确保不同算法间的可比性,我们在所有评估中保持相同训练参数。输入图像调整大小为640×640像素,批处理大小为8。我们采用随机梯度下降(SGD)作为优化器,配置初始学习率1e-2、动量0.937和权重衰减0.0005。根据临床对高诊断精度的要求,我们在推理过程中设置验证IoU阈值为0.6,置信度阈值为0.4。这些标准化配置旨在确保可靠性能基准测试同时反映真实世界医学影像应用场景。
评估指标
YOLOv9-AID网络性能从三个关键维度综合评估:检测准确性、计算效率和架构复杂性。为量化诊断精度和可靠性,我们采用既定指标包括精确率(Precision)、召回率(Recall)、平均精度均值(mAP)和F1分数(F1)。算法实时处理能力通过帧每秒(FPS)测量评估。此外,模型复杂性通过分析可训练参数基数系统表征,作为计算资源需求和部署可行性的指标。这种三重评估框架确保对模型在时间敏感检测场景中实际应用性的严格评估。
P、R、mAP、F1和FPS的计算公式如下:Precision=TP/(TP+FP); Recall=TP/(TP+FN); mAP=1/N∑i=1n∫01P(R)dR; F1=2×P×R/(P+R); FPS=1/processingtimeperframe,其中真阳性(TP)表示正确识别为正类的正类样本数,假阳性(FP)表示错误分类为正类的负类样本数,假阴性(FN)表示错误分类为负类的正类样本数。符号N对应分类系统中类别总数,P(R)表示特定召回水平的精确率,d(R)表示召回的微分,指示积分过程中的增量变化。
实验结果与分析
整体性能评估
我们选择各种参数大小相当(约50 MB)的模型,基于内部数据集进行训练和测试。如表3所示,在包括精确率、召回率、mAP50、mAP50-95和F1分数等评估指标上,我们的模型 consistently demonstrated clear advantages over mainstream models。具体而言,在精确率方面,我们的YOLOv9-AID模型达到80.3%,超越RTDETR-x 22%,显著提升医学图像处理效率。此外,我们的模型获得82.1%的召回率,相比基线YOLOv9c提高7.9%。这种高召回率表明YOLOv9-AID在几乎所有相关类别上拥有 outstanding detection capabilities,有效最小化漏检风险。因此,在F1分数——综合平衡精确率和召回率的指标上——YOLOv9-AID在所有评估模型中取得最高分,达到81%,比传统RTDETR-x高20%。
同时,如表4所示,我们的模型在外部测试集上也具有非常好效果。其中,召回率、mAP50和F1分数在对比模型中均为最高,分别达75%、70.8%和71%。在精确率上,比表现最好的YOLOv10x下降2.6%,但仍比YOLOv9c基线模型高2%。
如表5更清晰所示,YOLOv9-AID在所有评估指标上 consistently surpassed the baseline model YOLOv9c。在精确率方面,大多数类别显示 substantial improvements,许莫氏类别表现 particularly noteworthy increase from 72.5% to 92.9%, underscoring the effectiveness of our method in mitigating false positives。关于召回率, proposed method also revealed marked advancements;例如,在S2、S3和许莫氏类别中,召回率从66.3%、67.9%和66.1%上升至78.6%、77.4%和81.2%, significantly reducing the risk of missed detections。此外,对于mAP50指标,总体分数从79.2%增至82.8%,YOLOv9-AID在大多数类别上要么优于要么匹配YOLOv9c。在更严格的mAP50-95指标下,平均增强达2.9%, further confirming the robustness and precision of the proposed method across varying IoU thresholds。关于F1分数, pivotal evaluation metric,YOLOv9-AID从77%改进至81%,反映更优的精确率与召回率平衡。值得注意的是,在小目标和复杂背景类别中,如S1、S2和S3, proposed method demonstrated superior stability in detection performance, highlighting its strong adaptability to diverse scenarios。总体而言,实验结果 convincingly establish that the proposed method offers exceptional generalizability and substantial performance gains in multi-category detection tasks。
为更详细分析模型分类性能,我们在图5展示测试集上的混淆矩阵。如矩阵所示,模型在P1、P2、P4和P5类别上表现优秀,识别准确度(对角线上的值)均超过0.87。然而,模型在区分分期相关类别S1、S2和S3时表现出明显混淆。例如,26%的S2病例被错误分类为S3。此外,HIZ类别的识别准确度相对较低,为0.32,且容易误分类。这种混淆可能归因于MRI图像上这些病灶视觉特征高度相似和细微分级边界,对精确分类构成 significant challenge。
消融实验
在本节中,我们基于数据集设计一系列消融实验,以验证YOLOv9-AID框架中每个单独模块的有效性和必要性。具体而言,我们检查了EDWRepNESPELAN4结构增强、SCSA(空间-通道协同注意力)机制和SlideLoss函数的贡献。这些模块分别单独和组合集成到基线网络YOLOv9c中,所有模型在相同设置下训练同时保持相似参数大小。详细实验结果如表6所示,揭示了这三个模块对精确率、召回率、mAP50、FPS和整体模型复杂性的 distinct impacts。研究结果表明,虽然每个组件贡献不同,但三者共同增强诊断性能, demonstrating their indispensable roles in optimizing both detection accuracy and computational efficiency。
对于mAP50指标,SlideLoss、EDWRepNESPELAN4和SCSA的贡献依次增加,且它们的组合导致总改进3.6%,表明所有三个模块的集成有效增强检测准确性。值得注意的是,SCSA引入的注意力机制显著提高FPS,尽管添加了架构复杂性,但FPS的整体下降仅限于3, demonstrating that the coordinated integration of the three modules does not compromise inference speed。EDWRepNESPELAN4和SCSA注意力模块都对精确率和召回率的改进做出有意义贡献,而SlideLoss引入的动态权重调整放大了注意力机制的优势而不增加模型复杂性。与仅含EDWRepNESPELAN4和SCSA的版本相比,包含SlideLoss导致精确率增加3.8%,召回率增加5.2%。
注意力机制贡献可视化
为更直观说明注意力机制模块对图像识别和处理的贡献,我们采用梯度加权类激活映射(Grad-CAM)进行热力图可视化。对于每张图像,呈现四个版本:原始图像、带真实边界框的图像、YOLOv9c预测及其对应Grad-CAM热力图、YOLOv9-AID预测及其Grad-CAM热力图。使用内部数据集两个样本和外部数据集两个样本进行演示。在Grad-CAM热力图中,红色区域指示模型高度关注区域——算法认为对决策重要的区域。这些红色区域越接近实际病理区域,图像处理效率越高,导致更准确检测结果。
如图6所示,我们选择四个代表性案例(A-D)进行可视化。随着YOLOv9-AID的集成,算法表现出对病灶区域的增强关注,特征为更清晰边界和显著减少的无关区域干扰。这些改进表明我们的模型在识别医学图像中关键结构方面具有 substantially increased capability,从而增强准确性和可靠性。真实与预测边界框之间的比较进一步支持这些发现。例如,在内部数据集图像A中,YOLOv9-AID将下部S1亚型的置信度分数从48%提高到66%。在图像B(同样来自内部数据集)中,YOLOv9-AID成功检测到YOLOv9c未能识别的HIZ。我们的模型在图像变异性更大的外部数据集上也表现良好。在外部图像C中,YOLOv9-AID检测到YOLOv9c遗漏的HIZ亚型。在外部图像D中,它将上部P3亚型的置信度分数从42%提高到80%。这些实验结果 strongly demonstrate the superior precision and efficiency achieved by our proposed model。
讨论
我们的研究证明了将注意力机制引入YOLOv9c用于医学图像检测的可行性。尽管有更新版本YOLOv12x,但在内部数据集测试后发现其在医学领域的性能并不令人满意。YOLOv9c具有最佳初始性能,因此我们决定以其为基础进行优化。在对RTDETRx、YOLOv8x、YOLOv9c、YOLOv10x、YOLOv11x和YOLOv12x进行横向比较后,发现我们提出的YOLOv9-AID模型最为合适。
在临床诊疗中,LDD的MRI评估体系强调多维价值:Pfirrmann分级(1-5级)作为金标准,通过评估髓核信号强度、椎间盘高度和结构特征,能有效区分早期退变(II-III级)与晚期退变(IV-V级),为预测疾病进展和手术决策提供关键依据;更高级别(IV-V级)与椎间盘高度丢失和终板损伤高度相关。在形态学改变方面,膨出/突出/脱出与神经根压迫风险呈梯度关联,其中突出和脱出直接压迫神经结构,与坐骨神经痛、运动功能障碍和手术指征密切相关。高信号区(HIZ)作为纤维环撕裂的影像学标志,与腰椎疼痛显著相关(OR=28.15),提示炎症因子释放和神经纤维浸润风险;许莫氏结节代表髓核通过终板突入椎体的特殊类型突出,虽多无症状,但急性期骨髓水肿可引发机械性腰痛。为MRI图像开发的算法尤为重要,因为MRI在检测许莫氏结节方面显著优于X射线,尤其在T2加权像上清晰显示水肿信号。
在当前临床实践中,Pfirrmann分级存在观察者间差异(Kappa=0.66–0.89),突出物边界不清,HIZ和许莫氏结节的各种形态缺乏统一标准。且传统人工判读每例耗时14–19分钟。YOLOv9-AID将退变分级、突出类型、HIZ和许莫氏结节多维指标整合为一,显著缩短判读时间,并通过标准化流程提高一致性,为临床实践中的腰椎退变提供一套高效可靠的自动化评估解决方案。
本研究中,对于内部和外部数据集上的LDH检测任务,我们提出的YOLOv9c-AID模型在多个关键指标上优于包括RTDETR-x、YOLOv8x和YOLOv12x在内的多种主流单阶段检测器。首先,在内部数据集上,YOLOv9-AID在精确率、召回率、mAP50、mAP50-95和F1分数上分别取得80.3%、82.1%、82.8%、57.0%和81.0%的出色结果。与基线模型YOLOv9c相比,精确率提高2.5%,召回率提高5%,mAP50提高3.6%,表明我们的模型在医学图像处理效率和假阴性风险控制方面具有显著优势。同样,在外部数据集上,YOLOv9-AID保持强大泛化能力,实现68.6%的精确率、75.0%的召回率和71.0%的F1分数,充分证明模型在异构数据上的稳健性。
从类别层面的性能来看,YOLOv9-AID在小目标(如许莫氏结节)、复杂背景(如HIZ)和常见椎间盘区域(P1-P5、S1-S3)的检测上均取得不同程度的性能提升。尤其在许莫氏类别中,精确率从72.5%提升至92.9%,召回率从66.1%上升至81.2%,mAP50从74.8%改进至87.3%。这一显著提升表明我们的SCSA机制能有效抑制假阳性,而S2和S3等亚型召回率的提升反映了SlideLoss动态权重调整在减少漏检中的突出作用。在严格IoU阈值(mAP50-95)下平均2.9%的提升进一步验证了模型在不同重叠标准下检测的稳健性。
与表7中近3年发表的算法相比,我们的模型在整体精确率和召回率上优于Guinebert等人(2022)的基准,尽管落后于三项2024–2025年的研究(Natalia等人2024;Zhang等人2024;Wang等人2025),这些研究利用更大数据集(48,345、3225和5664张图像)并专注于Pfirrmann分级。值得注意的是,在Pfirrmann亚型中,我们的I级和IV级精确率领先所有比较者,仅使用1100张图像即证明多任务检测(包括HIZ、椎间盘突出和许莫氏结节)可在不妥协分级准确性的情况下实现。鉴于临床实践中为每种病灶类型开发单独算法不切实际,我们的YOLOv9-AID网络提供了一种具有竞争力的综合性解决方案,以辅助基于MRI的LDD诊断。
此外,通过消融实验,我们可以观察到EDWRepNESPELAN4、SCSA和SlideLoss三个模块对检测性能和推理效率各有不同贡献。单独引入EDWRepNESPELAN4即可将mAP50增至80.3%,而仅添加SCSA可将FPS增至42。当三个模块协同工作时,mAP50达到82.8%,精确率和召回率分别增至80.3%和82.1%,帧率仅降至37,充分证明三个模块的互补性和
生物通微信公众号
知名企业招聘