基于推理的大语言模型在医学社交技能评估中超越人类平均水平的研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Reasoning-based LLMs surpass average human performance on medical social skills

【字体：大中小】 时间：2025年10月19日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对AI在临床社交技能应用中的争议，系统评估了GPT-4、GPT-4o、Gemini 1.5 Pro和推理模型o1系列在USMLE社交技能试题中的表现。结果显示推理模型o1以97.5%的正确率显著优于人类平均成绩（64%），且展现出卓越的稳定性。该研究为AI在医学教育和临床决策支持系统的应用提供了重要依据。

在人工智能迅猛发展的今天，医疗领域正迎来前所未有的技术变革。然而，当AI开始涉足需要人类同理心和道德判断的医疗社交场景时，一个关键问题浮出水面：机器能否真正理解并应对复杂的医疗人际互动？这正是近期发表在《Scientific Reports》上的一项突破性研究试图解答的核心议题。

医疗执业资格考试中，沟通技巧、伦理判断等社交技能的评估占据重要比重。尽管先前研究表明GPT-3.5和GPT-4在美国医师执照考试（USMLE）社交技能题目上表现不俗，但新推出的推理模型o1系列采用独特的"思维链"（chain-of-thought）推理模式，其表现仍属未知。这项研究首次系统比较了五种主流大语言模型在医学社交技能评估中的表现，为AI在医疗人文关怀领域的应用提供了重要参考。

研究团队设计了一套严谨的实验方案，从UWORLD题库随机抽取40道USMLE社交技能试题，涵盖沟通与人际技能、医疗政策与经济、系统实践与质量改进、医学伦理与法学等六大类别。每个模型在回答问题后都会接受"你确定吗？"的追问，以测试其答案的一致性。这种双重提示的设计不仅评估了模型的准确率，更深入检验了其决策的稳定性。

关键方法包括：使用USMLE官方退休试题进行基准测试，确保与前期研究的可比性；采用两步提示法（问题呈现+确定性追问）评估模型表现；通过科恩卡帕系数（Cohen's k）计算模型自我一致性；使用精确二项检验和费舍尔精确检验进行统计分析。

结果呈现出一幅令人惊讶的图景：推理模型o1以39/40的正确率（97.5%）高居榜首，显著超越人类平均表现。GPT-4o和Gemini 1.5 Pro以87.5%的正确率并列第二，而o1预览版（77.5%）和GPT-4（75%）分列三、四位。所有测试模型均超过了UWORLD用户64%的平均正确率。

类别分析揭示了更有趣的现象：虽然总分相同，但GPT-4o和Gemini 1.5 Pro在不同领域各擅胜场。GPT-4o在沟通与人际技能（94.74%）和患者安全（100%）方面表现突出，而Gemini 1.5 Pro在医疗政策与经济、系统实践与质量改进、医学伦理与法学三个类别均获满分。

质疑应对测试显示，o1预览版在受到质疑时更改了30%的答案，且四分之三的更改导致错误结果，这使其排名从潜在的第二位降至第四。相反，正式版o1和其他模型均保持完全一致的答案，展现出成熟的决策稳定性。

讨论部分深入剖析了这些发现的深远意义。推理模型o1的卓越表现证实了"思维链"设计在处理需要深思熟虑的社交场景中的价值。不同模型在各领域的特异性优势提示，未来医疗AI可能需要 specialized 的专家模型组合，而非追求全能型单一模型。

然而，研究也警示了AI应用的潜在风险：训练数据偏差可能导致算法歧视，过度依赖AI可能削弱医务人员的道德判断能力。此外，基于西方文化背景的测试结果可能不适用于其他地区，强调本地化评估的重要性。

这项研究不仅证实了大语言模型在医学社交技能评估中的卓越能力，更重要的是指明了推理模型在这一领域的独特优势。随着AI技术的持续进化，基于推理的LLMs有望在临床培训、医学教育和患者护理领域发挥越来越重要的辅助作用，为人机协作的医疗未来奠定坚实基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号