
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估ChatGPT-4V在检测骶髂关节炎炎症性磁共振成像表现方面的性能:潜力、挑战与局限性
《Journal of Imaging Informatics in Medicine》:Evaluating the Performance of ChatGPT-4V in Detecting Inflammatory Magnetic Resonance Imaging Findings of Sacroiliitis: Potentials, Challenges, and Limitations
【字体: 大 中 小 】 时间:2025年11月22日 来源:Journal of Imaging Informatics in Medicine
编辑推荐:
ChatGPT-4V在125例(250关节)MRI影像中评估 sacroiliitis 诊断准确性,对比两位放射科专家。模型对骨髓水肿敏感度达95.5%(AUC 0.84),但对硬化(21.1%)、关节间隙狭窄(29.8%)和表面不规则(43.3%)敏感度不足。整体准确度62.4%,AUC 0.62。其在急性炎症识别上表现优异,但慢性结构异常检测受限,需通过专科标注数据微调以提升临床实用性。
本研究旨在评估具备视觉能力的AI模型ChatGPT-4V在MRI图像中检测骶髂关节炎的诊断准确性,并将其性能与专家放射科医生的诊断结果进行比较。这项回顾性研究选取了来自一家三级医院图像存档与通信系统(PACS)的125名患者(共计250张骶髂关节影像)。MRI扫描数据包括冠状T1加权序列和半冠状STIR序列,由两位经验丰富的放射科医生进行评估。研究人员通过标准化查询指令引导ChatGPT-4V分析这些影像,以识别活动性或慢性骶髂关节炎的征兆,并将其诊断结果与放射科医生的评估结果进行对比。研究计算了各项性能指标,包括敏感性、特异性、精确度以及曲线下面积(AUC)。结果显示,ChatGPT-4V在检测骨髓水肿方面表现优异(敏感性为0.955,AUC为0.84),但在检测硬化(敏感性为0.211,AUC为0.55)、关节间隙狭窄(敏感性为0.298,AUC为0.59)和关节表面不规则性(敏感性为0.433,AUC为0.59)方面的敏感性较低。该模型的整体诊断准确率为0.624,加权平均AUC为0.62。ChatGPT-4V在识别活动性炎症变化方面表现突出,但在检测慢性结构异常方面存在不足。尽管ChatGPT-4V在检测活动性炎症性骶髂关节炎(尤其是骨髓水肿)方面具有潜力,但由于其目前无法可靠地识别慢性结构异常,因此其独立临床应用价值仍有限。为提升其诊断能力并实现临床应用,未来的研究应重点关注使用专业标注的放射学数据集对模型进行微调。
本研究旨在评估具备视觉能力的AI模型ChatGPT-4V在MRI图像中检测骶髂关节炎的诊断准确性,并将其性能与专家放射科医生的诊断结果进行比较。这项回顾性研究选取了来自一家三级医院图像存档与通信系统(PACS)的125名患者(共计250张骶髂关节影像)。MRI扫描数据包括冠状T1加权序列和半冠状STIR序列,由两位经验丰富的放射科医生进行评估。研究人员通过标准化查询指令引导ChatGPT-4V分析这些影像,以识别活动性或慢性骶髂关节炎的征兆,并将其诊断结果与放射科医生的评估结果进行对比。研究计算了各项性能指标,包括敏感性、特异性、精确度以及曲线下面积(AUC)。结果显示,ChatGPT-4V在检测骨髓水肿方面表现优异(敏感性为0.955,AUC为0.84),但在检测硬化(敏感性为0.211,AUC为0.55)、关节间隙狭窄(敏感性为0.298,AUC为0.59)和关节表面不规则性(敏感性为0.433,AUC为0.59)方面的敏感性较低。该模型的整体诊断准确率为0.624,加权平均AUC为0.62。ChatGPT-4V在识别活动性炎症变化方面表现突出,但在检测慢性结构异常方面存在不足。尽管ChatGPT-4V在检测活动性炎症性骶髂关节炎(尤其是骨髓水肿)方面具有潜力,但由于其目前无法可靠地识别慢性结构异常,因此其独立临床应用价值仍有限。为提升其诊断能力并实现临床应用,未来的研究应重点关注使用专业标注的放射学数据集对模型进行微调。
生物通微信公众号
知名企业招聘