人工智能在类风湿关节炎影像学评分中的自动化应用:通过全面评估揭示实施障碍

【字体: 时间:2025年06月19日 来源:Seminars in Arthritis and Rheumatism 4.6

编辑推荐:

  研究人员针对类风湿关节炎(RA)影像学评分效率低、可靠性不足的问题,开发了基于深度学习(DL)的Sharp van der Heijde(SvdH)评分自动化系统。通过157名患者1470张影像的训练和253名患者589张影像的外部验证,发现AI系统在绝对评分一致性(ICC 0.03-0.27)上逊于人工评分,但排序能力(Spearman 0.16-0.55)尚可。研究揭示了数据多样性不足等关键实施障碍,为AI在风湿病学领域的临床应用提供了重要参考。

  

类风湿关节炎(RA)作为一种慢性自身免疫性疾病,其关节破坏的准确评估对治疗决策至关重要。传统上,医生们依赖Sharp van der Heijde(SvdH)评分系统来评估手部和足部X光片中的关节侵蚀和关节间隙狭窄(JSN)程度。然而,这种人工评分方法不仅耗时费力,还存在评分者间差异大的问题。更令人担忧的是,现有研究表明常规影像学评分在区分临床试验中的治疗组别时能力有限。与此同时,深度学习技术在医学影像分析领域展现出巨大潜力,但如何将其可靠地应用于RA临床实践仍面临诸多挑战。

针对这一关键问题,来自澳大利亚皇家阿德莱德医院等机构的研究团队开展了一项开创性研究,旨在开发并全面评估基于人工智能(AI)的自动化影像学评分系统。这项发表在《Seminars in Arthritis and Rheumatism》的研究,不仅关注算法性能本身,更着重揭示了阻碍AI系统临床转化的深层次障碍。

研究团队采用了多中心数据收集策略,训练集来自皇家阿德莱德医院(RAH)的157名患者1470张影像,外部验证集则分别来自弗林德斯医学中心(FMC)和亚历山德拉公主医院(PAH)的253名患者589张影像。技术方法上,研究主要采用PyTorch和Detectron2框架开发深度学习模型,首先通过预训练模型进行关节定位,再微调模型预测侵蚀和JSN评分。评估指标不仅包括常规的均方根误差(RMSE)和组内相关系数(ICC),还创新性地引入亚组分析、错误探索性分析以及与功能结局(mHAQ)的相关性研究。

在"结果"部分,研究发现预处理模型表现相对较好,FMC和PAH数据集分别有11.6%和8.1%的影像因预处理失败被排除。关节水平评分的受试者工作特征曲线下面积(AUROC)为0.67-0.70,显示模型在区分有无损伤方面具有一定能力。然而,整体评分表现上,AI系统与人工共识评分的ICC(0.01-0.27)显著低于两位人工评分者之间的ICC(0.38-0.84)。值得注意的是,AI系统在评分排序(Spearman 0.16-0.55)方面的表现优于绝对评分一致性。亚组分析显示,模型在不同关节类型、人种和性别间表现相对稳定,但在50岁以上患者的侵蚀评分中表现较差。AI评分与功能结局(mHAQ)的相关性(0.38-0.45)接近人工评分(0.43-0.47)。

"讨论"部分深入分析了研究发现的临床意义。研究者指出,当前AI系统性能不足的主要原因可能在于训练数据的局限——包括患者人口特征单一(主要为欧洲裔)和疾病严重程度分布不均。通过错误分析发现,双侧足部X光片中存在分隔线的情况常导致视图分类错误,而关节定位错误多发生在晚期病例中。研究特别强调,现有评估多聚焦于单时间点评分,而证明AI系统检测疾病纵向变化的能力对临床应用至关重要。

这项研究的重要意义在于,它不仅开发了一个自动化评分系统,更重要的是通过全面评估揭示了AI在风湿病学领域临床应用面临的关键障碍。研究者建议,未来需要建立更大规模、更多样化的纵向数据集,并开展"静默试验"来验证AI系统在真实临床环境中的表现。虽然当前系统尚未达到临床应用标准,但这项研究为后续工作指明了方向——只有通过严格遵循OMERACT等国际标准进行全方位评估,才能最终实现AI在改善RA患者护理中的潜在价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号