
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能与医师对决:新型肩峰肱骨间距(AHD)测量方法的可靠性评估
【字体: 大 中 小 】 时间:2025年07月27日 来源:Journal of Imaging Informatics in Medicine
编辑推荐:
为解决肩痛患者评估中肩峰肱骨间距(AHD)测量的可靠性问题,研究人员开展了一项回顾性研究,对比ChatGPT-4与资深放射科医师对71例肩关节MRI的测量结果。结果显示:医师组测量值(7.6±1.7 mm)显著优于AI首次测量(6.7±0.8 mm,p<0.0001),但二者二次测量无显著差异(p=0.220)。医师组内可靠性极佳(ICC=0.99),而AI组内(ICC=0.41)和组间(ICC=0.45)可靠性较差,证实当前AI在医学影像测量中的局限性,为未来大语言模型的医疗应用改进提供依据。
这项开创性研究将ChatGPT-4与资深放射科医师置于同台竞技的舞台,针对肩关节疼痛诊断的关键指标——肩峰肱骨间距(Acromiohumeral Distance, AHD)展开精准度对决。研究团队精心选取71例肩关节磁共振成像(MRI)的冠状斜位T1序列图像,要求人类专家与AI模型各自在三天间隔内完成两次独立测量。
数据揭示有趣现象:放射科医师首次测量值(7.6±1.7 mm)与二次结果(7.5±1.6 mm)高度吻合,展现惊人的稳定性(ICC=0.99)。而ChatGPT-4则呈现"学习曲线",首次测量明显偏低(6.7±0.8 mm),二次结果(7.3±1.1 mm)虽接近医师水平,但波动性显著(ICC=0.41)。统计学分析显示,AI在首次(p<0.0001)和均值(p=0.009)测量中存在显著偏差,不过第二次测量时(p=0.220)已能媲美人类专家。
这项研究如同给医疗AI领域投下一枚"清醒剂",既揭示了当前大语言模型在医学影像定量分析中的局限性——其组间可靠性(ICC=0.45)尚达不到临床要求,又为AI辅助诊断系统的迭代指明方向。特别值得注意的是,AI表现出的"自我修正"能力暗示着未来通过针对性训练,或可培养出媲美专科医师的"数字影像专家"。这些发现为人工智能与人类专家在医疗场景中的协同进化提供了珍贵的第一手证据。
生物通微信公众号
知名企业招聘