
-
生物通官微
陪你抓住生命科技
跳动的脉搏
《自然医学》新研究发现人工智能医疗分诊存在盲点
【字体: 大 中 小 】 时间:2026年02月26日 来源:AAAS
编辑推荐:
这项研究已于 2026 年 2 月 23 日在线发表于《自然医学》杂志[https://doi.org/10.1038/s41591-026-04297-7],是自 ChatGPT Health 于 2026 年 1 月推出以来,首个针对这款基于大型语言模型 (LLM) 的工具进行的独立安全评估。研究还指出,该工具的自杀危机应对机制存在严重问题。
据西奈山伊坎医学院的研究人员称,广泛使用的消费者人工智能 (AI) 工具 ChatGPT Health 直接向公众提供健康指导(包括关于何时紧急就医的建议),但在相当多的严重病例中,可能无法正确引导用户寻求紧急护理。
这项研究已于2026年2月23日在线发表于《自然医学》杂志[https://doi.org/10.1038/s41591-026-04297-7],是自2026年1月该基于大型语言模型(LLM)的工具发布以来,首次对其进行的独立安全性评估。研究还指出了该工具在自杀危机应对方面的一些严重问题。
“LLM(生命科学实验室)已成为患者寻求医疗建议的首选——但在2026年,它们在临床极端情况下最不安全,因为判断力决定着是漏诊还是造成不必要的恐慌,”哈佛医学院生物医学信息学系主任、医学博士兼哲学博士艾萨克·S·科汉(Isaac S. Kohane)说道,他并未参与这项研究。“当数百万人使用人工智能系统来决定是否需要紧急救治时,风险就非常高。独立评估应该是常规操作,而不是可选项。”
ChatGPT Health发布几周后,其开发商OpenAI报告称,每天约有4000万人使用该工具获取健康信息和指导,包括是否需要紧急或急诊护理的建议。与此同时,调查人员指出,几乎没有独立证据表明其建议的安全性和可靠性究竟如何。
“正是这一空白促使我们开展了这项研究,”主要作者、西奈山伊坎医学院泌尿外科讲师阿什温·拉马斯瓦米医学博士说。“我们想回答一个非常基本但至关重要的问题:如果有人遇到真正的医疗紧急情况并向 ChatGPT Health 寻求帮助,它是否会明确地告诉他们应该去急诊室?”
关于自杀风险警报,ChatGPT Health 的设计初衷是在高风险情况下引导用户拨打 988 自杀和危机生命线。然而,调查人员发现这些警报出现不一致,有时会在低风险情况下触发,而令人担忧的是,当用户描述具体的自残计划时,警报却不会出现。
“这是一个尤其令人惊讶和担忧的发现,”该研究的资深通讯作者、温德赖希人工智能与人类健康系芭芭拉·T·墨菲讲席教授、 哈索·普拉特纳数字健康研究所所长、 西奈山伊坎医学院艾琳和亚瑟·M·菲什伯格医学教授、西奈山医疗系统首席人工智能官吉里什·N·纳德卡尼医学博士、公共卫生硕士表示,“虽然我们预料到会有一些波动,但我们观察到的情况远不止不一致。该系统的警报与临床风险呈反比,在低风险情况下比在有人详细描述自残方式的情况下更可靠。在现实生活中,当有人详细描述自残方式时,这表明危险更加迫在眉睫,而不是更轻微。”
作为评估的一部分,研究团队创建了涵盖21个医学专科的60个结构化临床情景。病例范围从适合居家护理的轻微病症到真正的医疗急症。三位独立的医生根据56个医学协会的指南,确定了每个病例的紧急程度。
每个场景都在 16 种不同的情境条件下进行了测试,包括种族、性别、社会动态(例如有人淡化症状)以及就医障碍(例如缺乏保险或交通工具)等方面的差异。研究团队总共与 ChatGPT Health 进行了 960 次互动,并将其建议与医生共识进行了比较。
研究人员测试了医生开发的 60 个真实的病人场景,发现虽然该工具通常能够正确处理明确的紧急情况,但它对医生确定需要紧急护理的病例中超过一半的病例进行了分类不足。
调查人员还对该系统在紧急医疗案例中的失效感到震惊。该工具经常在其解释中明明识别出了危险情况,却仍然安抚患者。
“ChatGPT Health 在应对中风或严重过敏反应等典型紧急情况方面表现出色,”拉马斯瓦米博士说。“但在危险并非显而易见的更复杂情况下,它的表现却不尽如人意,而这些情况往往最需要临床判断。例如,在一个哮喘病例中,该系统在其解释中识别出了呼吸衰竭的早期预警信号,但仍然建议等待,而不是寻求紧急治疗。”
该研究的作者建议,对于症状恶化或令人担忧的情况,包括胸痛、呼吸急促、严重的过敏反应或精神状态变化等,患者应直接寻求医疗帮助,而非仅仅依赖聊天机器人提供的指导。如果涉及到自残的想法,患者应联系 988 自杀与危机热线或前往急诊室。
不过,研究人员强调,这些研究结果并不意味着消费者应该完全放弃使用人工智能健康工具。
“作为一名在人工智能医疗工具已广泛应用于大众的时期接受医学培训的学生,我认为这些技术必须被我们有条不紊地融入医疗过程之中,而不能将其视为临床判断的替代品,”伊坎医学院西奈山分校的一名一年级医学生阿尔维拉·蒂亚吉说道,她也是这项研究的第二作者。“这些系统变化迅速,因此我们现在的培训部分必须考虑如何批判性地理解其输出结果、识别其不足之处,并以保护患者的方式加以利用。”
该研究仅在某一特定时间点对系统进行了评估。由于人工智能模型会不断更新,其性能可能会随时间发生变化,因此研究人员指出,有必要进行独立评估。
泰贾伊女士表示:“在进行医学培训的同时,我们还使用着不断更新迭代的设备。这清楚地表明,如今的结果并非一成不变。这一现实要求我们持续进行评估,以确保技术的进步能够转化为更安全的医疗服务。”
该团队计划继续评估 ChatGPT 健康版及其他面向消费者的 AI 工具的更新版本,并将未来的研究范围拓展至儿科护理、药物安全以及非英语语言使用等领域。
生物通微信公众号
知名企业招聘