人工智能模型在甲状腺影像报告与数据系统(TIRADS)评估甲状腺结节中的观察者间一致性研究

【字体: 时间:2025年05月16日 来源:Endocrine 3.0

编辑推荐:

  本研究针对人工智能(AI)在甲状腺结节恶性风险(TIRADS)评估中的术语理解差异问题,通过构建90个模拟病例场景,对比ChatGPT、Gemini和Claude三种AI模型在ACR/EU/K-TIRADS系统中的评估一致性。结果显示AI间观察者一致性(IOA)存在显著差异(κ=0.53-0.90),提示临床应用中需警惕AI评估的变异性,为国际TIRADS标准化提供重要参考。

  

甲状腺结节超声评估的标准化一直是临床实践中的关键挑战。随着甲状腺影像报告与数据系统(TIRADS)在全球范围内的多样化发展,不同地区开发的ACR-TIRADS、EU-TIRADS和K-TIRADS系统在术语和分类标准上存在显著差异。更值得关注的是,人工智能技术的迅猛发展使得ChatGPT等大型语言模型开始被患者和医生用于甲状腺结节风险评估,但这些AI系统对TIRADS术语的理解是否一致却鲜有研究。

Andrea Leoncini和Pierpaolo Trimbolic开展的研究首次系统评估了三种主流AI模型在TIRADS评估中的表现差异。研究团队采用创新的模拟病例设计方法,通过随机组合不同TIRADS系统的超声描述符构建了90个标准化病例场景。这些场景由ChatGPT、Google Gemini和Claude三种先进AI模型分别按照ACR、EU和K三种TIRADS标准进行评估,并通过计算Cohen's kappa系数量化模型间的一致性。

关键技术方法包括:1)基于三种TIRADS系统的描述符组合构建模拟病例库;2)采用自然语言处理技术让AI模型完成TIRADS分类;3)使用MedCalc软件进行统计学分析;4)通过κ值评估模型间一致性,样本量计算基于预期κ=0.40和95%置信区间。

研究结果显示,在ACR-TIRADS评估中,Gemini与Claude表现出几乎完美的一致性(κ=0.90),而ChatGPT与其他两个模型的κ值仅为0.58和0.53。EU-TIRADS评估中,三组模型间一致性均达到"substantial"水平(κ=0.62-0.73)。K-TIRADS评估则呈现最大差异,ChatGPT与Gemini一致性最高(κ=0.88),而Gemini与Claude仅为0.61。值得注意的是,不同AI模型展现出独特的分类倾向:ChatGPT在ACR-TIRADS中完全回避了TR1和TR3类别,Claude则将EU-TIRADS病例简化为中低风险分类。

讨论部分指出,这种AI间的评估差异可能源于三个关键因素:首先,不同TIRADS系统本身存在文化背景和医疗体系的差异,ACR-TIRADS更注重成本控制,而亚洲开发的K-TIRADS则更强调敏感性;其次,AI训练数据的来源和算法架构不同,ChatGPT基于GPT架构,Gemini结合了强化学习,而Claude则强调AI安全性原则;最后,TIRADS描述术语的主观性可能导致不同AI产生不同解读。

该研究的临床意义在于首次揭示了AI辅助诊断中潜在的"黑箱变异"问题,提示医生和患者在依赖AI进行甲状腺结节风险评估时需要保持警惕。研究结果对正在推进的国际TIRADS(I-TIRADS)标准化项目具有重要参考价值,建议未来AI开发应更注重医学术语的标准化训练。此外,研究采用的模拟病例设计方法为后续医学AI评估研究提供了可借鉴的方法学框架。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号