Osteotrans-Net：一个用于解释X光扫描中膝关节骨关节炎严重程度的分级模型，基于Transformer架构

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Osteotrans-Net: An interpretable transformer framework for knee osteoarthritis severity grading in X-ray scans

【字体：大中小】 时间：2025年11月11日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　膝关节骨关节炎的自动分级方法提出了一种融合3D CNN与Vision Transformer的混合架构Osteotrans-Net，通过DFA模块增强特征提取，在三个数据集上达到89.57%-94.38%的准确率，优于传统模型和纯Transformer基线。

　　膝骨关节炎（Knee Osteoarthritis, KOA）是一种常见的退行性关节疾病，主要影响中老年人群体，导致关节疼痛、僵硬以及功能受限。作为一种慢性疾病，KOA不仅影响患者的生活质量，还对医疗系统的负担产生深远影响。传统的Kellgren–Lawrence（KL）分级系统依赖于医生对X光图像的主观判断，因此存在一定的误差和重复性问题。为了解决这些问题，本文提出了一种名为Osteotrans-Net的混合模型架构，该模型结合了卷积神经网络（CNNs）与视觉Transformer（ViTs）的优势，旨在实现膝骨关节炎的自动、准确且可解释的严重程度分级。

Osteotrans-Net的核心设计理念是融合局部特征提取与全局上下文建模。CNNs在捕捉图像中局部的空间特征方面表现出色，但其在建模长距离依赖和复杂结构上的能力有限。相比之下，ViTs通过自注意力机制能够有效提取图像的全局信息，从而增强对关节结构的整体理解。通过将这两种技术相结合，Osteotrans-Net能够在保持高精度的同时，提高模型的可解释性，使医生能够更直观地理解模型的决策依据。

在模型结构上，Osteotrans-Net首先对输入的X光图像进行预处理，以确保数据质量并提高后续处理的效率。随后，图像被输入到一个三维卷积神经网络（3D CNN）中，该网络能够捕捉图像的空间和时间特征。这里的“时间”特征指的是图像中不同位置的结构变化，如关节间隙的变化、骨刺的形成等。3D CNN的多层卷积结构使得模型能够逐步提取图像的深层特征，从而为后续的全局建模打下基础。

为了进一步提升模型的特征表示能力，Osteotrans-Net引入了一个创新的Dual-Focus Attention（DFA）模块。该模块结合了通道注意力和空间注意力机制，能够识别图像中与疾病严重程度密切相关的区域，如关节间隙狭窄和骨刺形成。通过强调这些关键区域，DFA模块有助于增强模型对疾病特征的感知能力，从而提高分类的准确性。此外，DFA模块的设计还使得模型能够更加关注图像中重要的局部细节，而不是泛泛地处理整个图像，从而提升了模型的解释性。

在特征融合阶段，模型将DFA模块提取的特征与原始图像数据进行融合。这一过程通过二维卷积、批量归一化和ReLU激活函数完成，使得模型能够在保持原有信息的同时，增强对关键区域的识别能力。融合后的特征被输入到一个预训练的ViT模型中，该模型通过自注意力机制对全局上下文信息进行建模，从而实现对KOA严重程度的分类。最终，模型输出一个分类标签，表示该X光图像对应的膝关节是否患有KOA，或者其严重程度如何。

为了验证Osteotrans-Net的性能，本文使用了“膝骨关节炎数据集”（Knee Osteoarthritis Dataset），并将其划分为三个独立的子集：Dataset-I、Dataset-II和Dataset-III。这使得模型能够在不同数据条件下进行评估，从而确保其泛化能力。在实验评估中，Osteotrans-Net在三个子集上的分类准确率分别为89.57%、94.38%和89.88%。这一结果表明，该模型在KOA严重程度分级任务中具有较高的准确性，优于传统的CNN模型，如ResNet-18和EfficientNet-B0，以及单独使用的ViT模型。

为了进一步分析模型的有效性，本文进行了对比实验，将Osteotrans-Net与ResNet-18、EfficientNet-B0和ViT三种主流的深度学习模型进行了比较。实验结果表明，Osteotrans-Net在准确率、召回率和F1分数等关键指标上均优于这些基线模型。这种优势主要归功于DFA模块的引入，以及CNN与ViT的有机结合。通过将局部特征提取与全局上下文建模相结合，Osteotrans-Net能够更全面地理解膝关节的病理特征，从而提高分类的可靠性。

除了性能评估，本文还使用Grad-CAM（Gradient-weighted Class Activation Mapping）技术对模型的注意力机制和可解释性进行了分析。Grad-CAM能够可视化模型在进行分类决策时关注的图像区域，帮助医生理解模型是如何判断膝关节是否存在KOA以及其严重程度的。实验结果显示，Osteotrans-Net在Grad-CAM图中能够准确地定位与疾病相关的关键区域，例如关节间隙狭窄和骨刺形成，这表明模型具有良好的可解释性，能够为临床诊断提供有价值的辅助信息。

此外，本文还通过消融实验分析了特征提取器和注意力机制对模型性能的影响。消融实验的结果表明，DFA模块的引入显著提升了模型的特征学习能力和分类精度。相比之下，仅使用CNN或仅使用ViT的模型在性能上均不如Osteotrans-Net。这说明，将两种不同的特征提取方式结合起来，能够更好地捕捉膝关节的复杂病理特征，从而提高模型的整体表现。同时，实验还显示，Osteotrans-Net在训练参数和浮点运算方面的效率较高，使其在实际应用中更具可行性。

从临床应用的角度来看，Osteotrans-Net的提出为膝骨关节炎的诊断和评估提供了一种新的工具。传统的KL分级系统依赖于医生的主观判断，容易受到观察者间差异的影响，而Osteotrans-Net则能够通过自动化的特征提取和分类过程，减少人为误差，提高诊断的一致性和准确性。此外，该模型的可解释性也为医生提供了更直观的理解途径，有助于他们更有效地评估患者的病情，并制定个性化的治疗方案。

尽管Osteotrans-Net在多个方面表现出色，但其仍然存在一些局限性。首先，该模型依赖于高质量的X光图像数据，如果数据质量不高或存在噪声，可能会影响模型的性能。其次，虽然DFA模块能够增强对关键区域的识别能力，但如何进一步优化该模块以适应不同的病理特征仍是一个值得研究的问题。此外，模型的计算复杂度虽然相对较低，但在实际部署时仍需考虑硬件资源的限制，以确保其能够在资源有限的环境中运行。

为了推动该模型的进一步研究和应用，本文将Osteotrans-Net的代码开源，并发布在GitHub平台上。这一举措不仅有助于其他研究人员复现实验结果，还为未来的研究提供了宝贵的参考。通过开源代码，更多的开发者可以基于该模型进行改进和扩展，从而推动膝骨关节炎诊断技术的发展。

总的来说，Osteotrans-Net是一种具有创新性和实用价值的混合模型架构，能够有效解决传统KOA分级方法中存在的主观性和误差问题。其结合CNN和ViT的优势，不仅提高了分类的准确性，还增强了模型的可解释性，使其在临床实践中更具应用前景。未来的研究可以进一步探索该模型在不同数据集上的泛化能力，以及如何优化其在实际医疗环境中的部署和使用。此外，还可以考虑将该模型与其他医学影像技术相结合，以实现更全面的疾病评估和诊断。

联系信箱：

粤ICP备09063491号

热点排行