编辑推荐:
在医学人工智能领域,大语言模型(LLMs)在西班牙语医学场景中的应用效果存疑。研究人员评估了 GPT-4o 单智能体和多智能体策略在智利医学执照考试(EUNACOM)中的表现。结果显示多智能体策略表现更优,这为 LLMs 在西班牙语医疗领域的应用提供了参考。
在当今数字化时代,人工智能的浪潮正席卷各个领域,医学领域也不例外。大语言模型(LLMs)的迅猛发展,为医学决策和教育带来了新的曙光。像基于 GPT 的系统,能从大量数据中生成临床总结、辅助复杂诊断并预测患者结果,让医疗模式发生了巨大变革。然而,这看似光明的前景背后,却隐藏着诸多问题。
目前,LLMs 在非英语语境下的应用困难重重,尤其是在西班牙语医学场景中。虽然西班牙语是全球第二大母语,但多数 LLMs 主要基于英语数据集训练,应用到西班牙语医学领域时,面临着严重的语言和文化障碍。例如,GPT-4 在西班牙医学住院医师考试(MIR)中,就难以应对专业领域的细微差别和多模态问题。而且,单智能体模型在处理跨学科病例时常常力不从心,而多智能体框架虽能模拟现实医疗决策过程,但在实际应用中的效果还缺乏深入研究。
为了填补这些研究空白,来自智利 Pontificia Universidad Católica de Chile 的研究人员展开了一项极具意义的研究。他们聚焦于 GPT-4o 在智利国家单一医学知识考试(EUNACOM)中的表现,通过对比单智能体和多智能体配置,全面评估其在西班牙语医学能力考试中的成效,研究成果发表在《BMC Medical Education》上。
在研究过程中,研究人员采用了多种关键技术方法。他们选取了 1062 道公开的 EUNACOM 考试题目构建数据集,对题目进行预处理,随机排列选项以避免偏差。在实验设计上,将 GPT-4o 置于单智能体和多智能体两种配置下测试,每种配置又分别在三个温度条件(0.3、0.6、1.3)下运行两次。单智能体配置下探索多种提示技术,多智能体框架则模拟协作诊断环境。同时,利用准确率、API 调用次数和平均响应时间等指标评估模型,采用非参数统计检验分析数据。
研究结果如下:
- 整体性能:多智能体框架表现优于单智能体方法,其中 MDAGENTS 准确率最高,达到 89.97%(SD = 0.56%),显著超越零样本(85.90%,SD = 0.32% )和自我反思(85.38%,SD = 0.22%)等简单方法。而像思维链(CoT) + 少样本这类结合提示工程和引导推理的单智能体方法,也比零样本和自我反思表现更好。
- 稳健性:无论是单智能体还是多智能体策略,对温度调整都不敏感,表明模型在不同随机条件下能保持稳定性能。
- 计算资源与一致性:多智能体策略虽准确率高,但计算资源消耗大,如 MDAGENTS 平均需 21.14 次 API 调用,每次实验约 192 秒。而 CoT + 少样本在保证高准确率(87.67%,SD = 0.12% )的同时,计算开销最小。
- 不同医学专业的表现:模型在精神病学(95.51%)、神经病学(95.49%)和外科(95.38%)等专业准确率较高,在新生儿学(77.54%)、耳鼻喉科(76.64%)和泌尿科 / 肾病学(76.59%)等专业准确率较低。
研究结论和讨论部分指出,该研究充分展示了 GPT-4o 在西班牙语医学考试中的应用潜力。多智能体框架(如 MDAGENTS)通过协作推理和专业分工,在复杂医学评估中优势明显;而单智能体配置(如 CoT + 少样本)则在保证高准确率的同时,降低了计算成本,为资源有限的场景提供了实用选择。尽管模型在不同医学专业表现有差异,但整体稳健性良好。这一研究成果为 LLMs 在西班牙语医疗教育和临床实践中的应用提供了重要依据,有助于推动多语言人工智能在全球医疗领域的发展,不过也还需要进一步优化模型,以提高其在不同医学领域的表现,并降低多智能体框架的计算需求 。