中国大语言模型在完整临床工作流程中的性能评估:与ChatGPT及急诊医生的对比研究
《Scientific Reports》:A comparison of the performance of Chinese large language models and ChatGPT throughout the entire clinical workflow
【字体:
大
中
小
】
时间:2025年10月18日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对中国大语言模型(LLMs)在复杂临床工作流程中的性能缺乏系统评估的问题,通过29个模拟病例对豆包(Doubao)、文心一言(ERNIE Bot 3.5)和ChatGPT-4进行多维度测试。结果显示豆包在鉴别诊断、检查建议和临床管理方面与ChatGPT-4无显著差异(P>0.05),且LLMs在诊断准确性和治疗方案制定上优于急诊专科医生(P<0.05)。研究表明中国LLMs已具备辅助临床决策的潜力,为人工智能在医疗领域的应用提供了重要依据。
在人工智能(AI)迅猛发展的浪潮中,大语言模型(Large Language Models, LLMs)的出现彻底改变了人机交互的方式。2022年11月,ChatGPT-3.5的发布标志着AI技术进入新纪元,这款能够生成类人文本的模型很快在医疗领域展现出巨大潜力。早期研究表明,ChatGPT-3.5在完整的临床工作流程——包括鉴别诊断、检查建议、诊断和治疗管理——都表现出色,被喻为"最接近人类医生的AI衍生品"。
然而,AI技术的发展日新月异。随着ChatGPT升级到4.0版本,中国也涌现出豆包(Doubao)、文心一言(ERNIE Bot 3.5)等优秀的大语言模型。这些模型在本地市场广受欢迎,但它们在复杂临床任务中的表现如何?是否能够与国际顶尖模型相媲美?这些问题尚未得到科学回答。更关键的是,这些AI助手与专业医生相比孰优孰劣?这些问题的答案将直接影响AI在医疗领域的应用前景。
为了解答这些疑问,浙江大学医学院附属邵逸夫医院急诊科何杨等研究人员在《Scientific Reports》上发表了开创性研究。研究团队设计了一套科学的评估体系,从《默克手册》中精选29个标准病例作为模拟患者,每个病例都配有系列问题,模拟真实的临床决策过程:从初步的鉴别诊断(differential diagnosis),到针对性的检查建议(diagnostic questions),再到最终诊断(diagnosis questions)和治疗方案管理(management questions)。
研究方法的核心在于严谨的评分系统。每个问题都采用多选形式,研究人员定义"正确比例"为正确决策数占总选项数的比例。为保障结果可靠性,两名研究者独立进行评估记录,并通过组内相关系数(Intraclass Correlation Coefficient, ICC)评估评分者间一致性。同时,研究还纳入了18名完成住院医师培训、正处于1-3年专科培训阶段的急诊专科医生作为对比组,他们接受与LLMs相同的测试流程。
关键技术方法包括:基于Transformer架构的LLMs评估体系设计、从《默克手册》筛选的29个标准化病例队列、多维度临床工作流程分类评估标准、配对t检验和Wilcoxon符号秩检验统计分析方法。
研究发现,豆包在鉴别诊断方面的正确比例为0.71±0.12,检查建议为0.79±0.14,诊断准确率高达0.98±0.09,治疗方案管理为0.81±0.11。统计分析显示,豆包与ChatGPT-4在鉴别诊断、检查建议和管理方面均无显著差异(P>0.05)。相比之下,文心一言3.5在上述三个方面的表现均逊于另外两个模型(P<0.05)。但在诊断问题上,三款模型的平均准确率都超过97%,没有统计学差异。
值得注意的是,文心一言3.5并非在所有病例中都表现较差。在案例20(良性前列腺增生最终诊断)、案例23(睾丸附件扭转最终诊断)、案例26(心脏压塞最终诊断)和案例27(库欣病最终诊断)的鉴别诊断问题中,文心一言3.5反而优于其他两个模型。
选择ChatGPT-4作为最优模型与人类医生对比后发现,急诊专科医生在鉴别诊断的正确比例为0.66±0.19,检查建议为0.70±0.15,诊断准确率为0.98±0.08,治疗方案管理为0.72±0.18。统计检验表明,在诊断和鉴别诊断方面,LLMs与人类医生没有显著差异,但在检查建议和治疗方案管理上,LLMs显著优于人类医生(P<0.05)。
通过对比不同版本的ChatGPT,研究清晰地展示了LLMs的快速发展。ChatGPT-3.5在鉴别诊断的正确比例为0.63±0.15,检查建议为0.71±0.15,诊断准确率为0.84±0.18,治疗方案管理为0.67±0.12。而ChatGPT-4在所有四个方面都显著优于3.5版本(P<0.05),特别是在诊断准确率上达到了惊人的99%。
研究结论指出,中国大语言模型豆包在完整临床工作流程中表现出与ChatGPT-4相当的性能水平。这一发现具有重要启示:语言差异并未成为LLMs临床表现的障碍。同时,LLMs在多个维度上超越人类急诊专科医生,结合其快速迭代的发展趋势,预示着AI在医疗领域具有巨大的实际应用潜力。
然而,研究人员也谨慎地指出,LLMs目前仍存在明显局限性。例如,在案例2的胸痛患者鉴别诊断中,模型过于轻易地排除了急性冠脉综合征(ACS)的可能性,理由仅仅是"胸痛不够剧烈且患者没有呼吸困难"。这种看似合理的错误推理在真实临床场景中可能是致命的。此外,现有LLMs缺乏主动询问病史和实际操作的能力,其"幻觉"问题(即生成看似合理实则错误的内容)也需要高度警惕。
因此,现阶段LLMs最适合的角色是作为急诊医生的医疗决策支持工具,弥补医生知识储备中的空白,而非完全取代人类医生。医疗机构的本质是多学科协作团队,通过会诊机制和团队合作,人类医疗系统能够达到比任何单一AI模型或医生都更高的效率。
这项研究也存在若干局限性。部分LLMs可能在训练过程中已经"学习"过这些标准病例,这相当于让AI进行"开卷考试",而人类医生则依赖记忆作答。虽然LLMs是通过海量数据学习统计规律而非机械记忆,但这种潜在的数据偏差仍难以完全排除。此外,由于选取的标准病例数量有限,且参与医生均来自单一中心的急诊科,研究结果是否能推广到其他类型的患者病例或不同医院的医生群体,仍需进一步验证。
尽管如此,作为一项探索性研究,这些发现无疑具有重要价值。它们表明AI在急诊诊疗全流程中的应用已不再是科幻想象,而是触手可及的现实。随着技术的持续进步和临床验证的不断完善,大语言模型有望成为医疗团队中不可或缺的智能助手,为提升医疗质量和效率贡献力量。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号