AI伦理新标杆：基于医疗分诊场景的大语言模型道德决策评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月24日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对AI系统在高风险医疗场景中的伦理决策难题，开发了TRIAGE基准测试，通过87个真实世界伤亡案例评估6种主流大语言模型(LLM)的表现。研究发现开源模型比商业模型更易犯道德严重性错误，伦理提示反而降低决策准确率，揭示了当前AI在医疗伦理决策中的局限性与提示敏感性，为AI伦理评估提供了基于专业医疗协议的新范式。

在急诊室面对成批伤员时，医生必须快速决定先救谁——这个被称为"分诊"(triage)的残酷抉择，如今正成为检验人工智能伦理决策能力的试金石。随着ChatGPT等大语言模型(LLM)逐步渗透医疗领域，一个关键问题浮出水面：当生命悬于一线时，AI系统能否做出符合人类伦理的决策？传统机器伦理(ME)测试多采用虚构场景，而由Nathalie Maria Kirch团队发表在《Scientific Reports》的研究独辟蹊径，将真实的医疗分诊协议转化为AI伦理的"压力测试"。

研究团队从START和jumpSTART分诊体系提取87个标准化案例，构建TRIAGE基准测试。这些案例将患者分为四个等级：可暂缓处理的轻伤(绿色)、需延迟救治的危重(黄色)、必须立即抢救的濒危(红色)，以及仅需姑息治疗的临终(黑色)。通过对比GPT-4、Claude Opus等6种LLM在不同提示下的表现，发现商业模型总体优于开源模型，但存在显著"过关怀"(overcaring)倾向——就像过度保护的家长，给太多患者贴上"急需抢救"标签。而Mistral等开源模型则更易"欠关怀"(undercaring)，这种见死不救的错误在道德上更为严重。

令人意外的是，当研究者用"功利主义"或"义务论"等伦理框架提示模型时，决策准确率不升反降。这好比在急救现场大谈哲学理论，反而干扰了实战判断。更值得警惕的是，通过"医疗助手"等角色设定的对抗性提示(jailbreaking)，所有模型表现都显著恶化，其中GPT-4在"医生助手"提示下的失误率飙升至峰值。这些发现颠覆了"伦理提示必然改善AI决策"的固有认知，揭示出现有AI系统的道德判断仍高度依赖上下文框架。

关键技术包括：1)基于START/jumpSTART真实分诊案例构建测试集；2)采用人工角色调制(manual persona modulation)生成对抗性提示；3)设计功利主义与义务论伦理提示；4)使用混合逻辑回归分析3×3实验设计数据(3种语法描述×3类提示)。

研究结果部分显示：

•
相对性能：Claude Opus在对抗提示下超越GPT-4，而开源模型Mixtral对"医疗助手"提示异常敏感
•
提示效应：伦理提示使GPT-3.5准确率下降1.343分(功利主义)和1.171分(义务论)，对抗提示使GPT-4失误率增加1.99倍
•
错误模式：商业模型过关怀错误占比68%，开源模型欠关怀错误达57%，如图4所示

讨论指出，TRIAGE基准的价值在于：1)采用真实医疗协议替代虚构场景；2)揭示商业模型的"安全过度校准"风险；3)证明伦理框架的双刃剑效应。尽管当前测试简化了动态分诊的复杂性，但为AI伦理评估提供了可扩展的方法论。该研究警示：在部署医疗AI前，必须充分测试其在不同语境下的道德稳健性——因为急救现场不需要伦理学家，而是需要能稳定发挥的"数字急救员"。正如研究者强调，这项工作绝非主张用AI替代人类分诊，而是为AI伦理建立更坚实的评估基石。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号