
-
生物通官微
陪你抓住生命科技
跳动的脉搏
当AI对话医学时仍存局限:ChatGPT-4与Gemini在糖尿病肾病问答中的准确性研究
【字体: 大 中 小 】 时间:2025年09月23日 来源:Kidney News Online
编辑推荐:
来自JMIR Diabetes的研究团队针对AI医疗问答的准确性开展研究,通过对比ChatGPT-4和Google Gemini与肾病专家对糖尿病肾病(DN)患者常见问题的回答,发现AI虽能提供基本准确信息,但与临床专家共识存在显著差异,凸显其当前仍无法替代专业医疗对话的价值。
随着患者日益依赖人工智能(Artificial Intelligence, AI)获取健康信息,临床医生面临一个核心问题:这些工具能否提供既准确又符合临床最佳实践的回答?Ebrahimi等人近期在《JMIR Diabetes》发表的研究表明,目前答案仍是"尚未完全达到"。
该研究针对两种主流AI工具ChatGPT-4和Google Gemini,评估其回答糖尿病肾病(Diabetic Nephropathy, DN)常见患者问题的能力。研究团队首先让AI生成患者最可能提出的DN相关问题,从中筛选10个代表性问题,涵盖诊断、预防、疾病进展及透析启动等维度。两位资深肾病专家使用标准化表格独立作答,其回答与AI生成答案进行比对。由不知来源的学术评审采用五分量表(从"完全错误"到"完全准确")进行盲审评分。
整体而言,AI工具和肾病专家均获得较好准确度评分,未出现"不准确"或"不相关"评价。但专家间呈现中度一致性(κ=0.61;p=0.04),而两款AI工具仅显示微弱且无统计学意义的共识(κ=0.52;p=0.10)。与人类专家直接对比时,AI模型均未表现出任何一致性。值得注意的是,ChatGPT-4在两次运行中的答案一致性也较低(κ=-0.08;p=0.80),表明即使输入相同,其输出仍存在不稳定性。
尽管AI显示出提供大体准确回答的潜力,研究表明现有技术尚不能替代肾病学领域的临床对话。特别值得注意的是,随着问题专业度提升,AI输出的准确性呈现下降趋势。这一现象与既往研究相符:AI模型在广义医学知识评估中表现良好,但在肾病学专项评估或国际疾病分类(International Classification of Diseases)编码等专业任务中表现欠佳。
这些局限在DN管理领域尤为关键,因为关于疾病进展、透析等干预时机选择以及治疗策略个体化调整都需要精细的临床判断——这是当前任何算法都无法复制的核心能力。
本研究进一步印证了未来发展方向:不是用算法取代临床医生,而是设计能增强临床工作流程并保持医生主导地位的AI系统。在这种愿景下,AI将成为提供信息、辅助决策提升效率的支持性伙伴,而临床医生继续行使专业判断、共情能力和监督职责。
现阶段,医生应指导患者将AI生成内容视为初步参考而非最终医疗建议。随着技术持续发展,未来研究需超越准确性基准测试,深入探索如何将AI负责任且有意义地整合到真实世界的患者照护场景中。
生物通微信公众号
知名企业招聘