
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类与人工智能协作做出最准确的医疗诊断
【字体: 大 中 小 】 时间:2025年06月24日 来源:AAAS
编辑推荐:
人工智能 (AI) 可以有效地辅助医生进行诊断。它犯的错误与人类不同——这种互补性代表着一种此前未被开发的优势。由马克斯·普朗克人类发展研究所领导的国际团队首次系统地证明,将人类专业知识与 AI 模型相结合,可以实现最准确的开放式诊断。
诊断错误是日常医疗实践中最严重的问题之一。人工智能系统,尤其是像 ChatGPT-4、Gemini 或 Claude 3 这样的大型语言模型 (LLM),提供了高效支持医学诊断的新方法。然而,这些系统也蕴含着巨大的风险——例如,它们可能会“产生幻觉”并生成虚假信息。此外,它们还会重现现有的社会或医学偏见,并犯下一些常常令人类感到困惑的错误。
一个由马克斯·普朗克人类发展研究所领导的国际研究团队,与来自人类诊断项目(旧金山)和意大利国家研究委员会认知科学与技术研究所(罗马 CNR-ISTC)的合作伙伴合作,探究了人类与人工智能如何实现最佳协作。研究结果显示:混合诊断集体(由人类专家和人工智能系统组成的团队)的准确率显著高于仅由人类或人工智能组成的集体。这尤其适用于具有众多可能解决方案的复杂开放式诊断问题,而非简单的“是/否”决策。 “我们的结果表明,人类与人工智能模型的合作在提高患者安全方面具有巨大潜力,”主要作者、马克斯·普朗克人类发展研究所自适应理性中心博士后研究员 Nikolas Z?ller 说道。
使用 2,100 多个临床案例进行逼真的模拟
研究人员使用了来自人类诊断项目的数据,该项目提供了临床案例(医学病例的简短描述)以及正确的诊断。使用其中的 2,100 多个案例,该研究将医疗专业人员的诊断与五种领先的人工智能模型的诊断进行了比较。在中心实验中,模拟了各种诊断集合:个人、人类集合、人工智能模型以及人机混合集合。研究人员总共分析了超过 40,000 个诊断。每个诊断都根据国际医学标准 (SNOMED CT) 进行分类和评估。
人类和机器相辅相成——即使在错误的情况下也是如此
研究表明,结合多种人工智能模型可以提高诊断质量。平均而言,AI 团队的表现优于 85% 的人类诊断专家。然而,也有很多案例表明人类的表现更佳。有趣的是,当 AI 诊断失败时,人类通常能够做出正确的诊断。
最令人惊讶的是,将人工智能和人类结合起来可以显著提高准确性。即使将一个人工智能模型添加到一组人类诊断师中(反之亦然),也能显著改善结果。最可靠的结果来自多个人类和多个人工智能的集体决策。其解释是,人类和人工智能会犯系统性不同的错误。当人工智能失败时,人类专业人员可以弥补错误,反之亦然。这种所谓的错误互补性使得混合集体如此强大。“这并不是要用机器取代人类。相反,我们应该将人工智能视为一种补充工具,在集体决策中充分发挥其潜力,”马克斯·普朗克人类发展研究所高级研究员、合著者斯蒂芬·赫尔佐格 (Stefan Herzog) 说道。
然而,研究人员也强调了其研究的局限性。该研究仅考虑了基于文本的病例片段,而非真实临床环境中的实际患者。研究结果能否直接应用于实践仍有待未来研究解决。同样,该研究仅关注诊断,而非治疗,而正确的诊断并不一定能保证最佳治疗。
基于人工智能的支持系统在实践中如何被医务人员和患者接受仍存在不确定性。人工智能和人类都可能存在偏见和歧视的风险,尤其是在种族、社会或性别差异方面,同样需要进一步研究。
人机混合集群的广泛应用
这项研究是“开放式决策中的混合人机人工智能集体智能”(HACID)项目的一部分,该项目由“地平线欧洲”资助,旨在通过人机智能的智能整合,促进未来临床决策支持系统的发展。研究人员认为,在医疗资源匮乏的地区,混合人机人工智能集体智能将发挥特殊潜力。在这些地区,人机智能集体智能可以为提升医疗公平性做出重要贡献。
“该方法还可以推广到其他关键领域——例如法律体系、灾害响应或气候政策——任何需要复杂、高风险决策的领域。例如,HACID 项目也在开发增强气候适应决策的工具。”HACID 项目的合著者兼协调员 Vito Trianni 说道。
简而言之:
由人类和人工智能组成的混合诊断集体比单独的医疗专业人员或人工智能系统做出更准确的诊断 - 因为他们会犯系统性不同的错误,这些错误可以相互抵消。
该研究分析了人类和机器根据 2,100 多个真实的临床案例做出的 40,000 多个诊断。
将人工智能模型添加到人类集体中(或反之亦然)明显提高了诊断质量;由多个人和机器做出的混合集体决策取得了最佳结果。
这些发现凸显了提高患者安全性和更公平医疗保健的潜力,尤其是在医疗资源匮乏的地区。然而,在实际实施和伦理考量方面仍需进一步研究。