大型语言模型能否进行临床病史采集?通过基于案例的提问方式,在口腔颌面疾病的诊断推理方面对ChatGPT-4o、Claude和Gemini进行比较评估
《Journal of Stomatology Oral and Maxillofacial Surgery》:Can Large Language Models Take Clinical Anamnesis? Comparative Evaluation of ChatGPT-4o, Claude, and Gemini in Diagnostic Reasoning through Case-Based Questioning in Oral and Maxillofacial Disorders
【字体:
大
中
小
】
时间:2025年11月10日
来源:Journal of Stomatology Oral and Maxillofacial Surgery 2
编辑推荐:
口腔颌面外科临床诊断中大型语言模型(LLMs)的模拟能力评估。通过25例真实临床案例(上颌窦疾病、根尖病变等),比较ChatGPT 4o、Claude 4和Gemini 2.5的问诊流程及诊断准确率。结果显示Gemini平均得分最高(43.6±40.71),但三模型总体无显著差异(p=0.431)。诊断准确率在中等难度病例中表现最佳(p=0.021),而复杂病例准确率下降(p=0.016)。研究表明LLMs能进行结构化问诊并得出临床意义诊断结论,具有辅助诊断和教学潜力。
这项研究探讨了大型语言模型(LLMs)在口腔颌面外科领域是否能够模拟临床问诊过程以及诊断推理能力。随着人工智能技术的快速发展,LLMs在医学领域的应用逐渐增多,特别是在数据处理和自然语言理解方面展现出强大的潜力。口腔颌面外科作为一门高度依赖临床经验和精准诊断的学科,其诊断过程通常需要结合详细的病史资料、影像学检查结果以及组织病理学分析。然而,许多口腔颌面区域的病变在临床表现和影像特征上具有相似性,使得诊断变得复杂,即使是经验丰富的医生也可能面临挑战。
在这一背景下,研究者设想通过模拟真实临床案例,评估LLMs在诊断过程中的表现。研究选择了25个真实临床案例,涵盖五个主要的诊断类别:上颌窦疾病、牙周病变、口腔面部疼痛障碍与神经性疼痛综合征、牙源性囊肿与肿瘤,以及颞下颌关节疾病。这些案例涉及不同难度级别,从而可以更全面地考察模型在不同情况下的诊断能力。研究者分别使用了三个LLMs:ChatGPT 4o、Claude 4和Gemini 2.5。每个模型仅根据患者的主诉进行诊断,并被要求提出最多十个连续的问题,以尽可能接近真实的临床问诊过程。研究者还设立了一名独立评估者,对模型的表现进行评分,评分标准为100分制,每多提出一个问题将扣减10分。这一评分机制旨在衡量模型在达到诊断目标过程中所使用的提问效率。
研究结果显示,三个模型在整体诊断准确性上没有显著差异(p = 0.431),这表明在当前的测试条件下,各模型的诊断能力相对接近。然而,Gemini 2.5在多数诊断类别中取得了最高的平均诊断得分(43.6 ± 40.71),其次是ChatGPT 4o(37.2 ± 36.8)和Claude 4(31.6 ± 33.0)。这一结果可能反映了Gemini模型在处理复杂问题时的较强能力,尤其是在需要深入分析和推理的情况下。此外,研究还发现,在中等难度的病例中,模型的诊断准确性最高(p = 0.021),而在困难病例中则明显下降(p = 0.016)。这说明模型在面对不同复杂程度的病例时,其表现存在差异,进一步强调了在临床诊断中,信息的完整性和复杂性对模型性能的影响。
研究的结论指出,大型语言模型具备在有限信息下进行结构化问诊和得出具有临床意义诊断结论的能力。尽管三个模型在整体诊断准确性上没有显著差异,但Gemini 2.5在平均诊断得分上表现更优,这可能暗示其在某些方面具有更好的潜力。这些发现表明,LLMs可以作为口腔颌面外科诊断推理的辅助工具,同时也可能在模拟教学和临床培训中发挥重要作用。研究者认为,未来需要进一步研究LLMs在更复杂和多样化病例中的表现,以更全面地评估其在实际临床环境中的适用性。
此外,研究还提到,尽管已有许多关于LLMs在医学领域应用的研究,但大多数研究主要基于一般医学知识的问题或人工构建的临床场景,而较少涉及真实复杂的临床案例。因此,本研究的创新之处在于使用真实病例来评估LLMs的诊断能力,从而提供更具实际意义的数据。研究者认为,这种基于真实案例的评估方法能够更准确地反映模型在实际临床环境中的表现,有助于识别其在不同诊断任务中的优势和局限。
在医学和牙科诊断中,问诊是推理过程的第一步,也是最关键的阶段。在这个阶段,医生通过结构化的问题收集关键信息,为后续的诊断奠定基础。问诊的质量直接影响后续诊断的准确性。与被动依赖已有数据的诊断工具不同,有效的问诊需要医生具备情境理解、适应性提问和动态假设修正等认知功能。而这些功能正是LLMs正在逐步逼近的能力。因此,评估这些模型是否能够模仿医生的问诊行为,对于理解其真正的推理潜力至关重要。
本研究不仅关注LLMs是否能够给出正确的诊断,还特别强调它们是否能够通过结构化和有针对性的提问达到这一目标。换句话说,研究考察的是LLMs是否能够以人工智能的方式进行问诊。这一研究设计使得评估更加全面,能够更准确地衡量模型在诊断过程中的表现。研究者认为,通过这种方式,可以更好地了解LLMs在实际应用中的潜力,以及它们在辅助医生进行诊断和提高医疗教育质量方面的价值。
研究还指出,尽管目前的测试结果显示各模型之间没有显著差异,但Gemini 2.5在多数情况下表现更优。这可能与模型的训练数据、算法架构以及处理复杂问题的能力有关。此外,研究者认为,这一结果也可能受到评分机制的影响,因为每个额外的问题都会扣分,这可能导致模型在提问数量上有所调整,从而影响最终的诊断得分。因此,未来的研究需要进一步优化评分机制,以更公平地评估模型的诊断能力。
在临床实践中,医生通常会根据患者的主诉和病史,结合影像学资料,进行初步诊断。这一过程不仅需要专业知识,还需要良好的沟通技巧和逻辑推理能力。而LLMs的引入,为这一过程提供了新的可能性。通过模拟问诊,LLMs可以协助医生快速获取关键信息,提高诊断效率。然而,研究者也指出,当前的LLMs在模拟医生的问诊行为时,仍然存在一定的局限性。例如,模型可能无法准确识别复杂的临床情况,或者在面对具有相似症状的病例时,难以区分不同的诊断可能性。
此外,研究还强调了LLMs在医疗教育中的潜在价值。通过模拟问诊过程,LLMs可以作为教学工具,帮助医学生和年轻医生学习如何进行有效的问诊和诊断推理。这不仅可以提高他们的临床技能,还可以增强他们对复杂病例的理解能力。然而,研究者也指出,这种模拟教学的效果仍然需要进一步验证,特别是在实际临床环境中的应用。
总的来说,这项研究为LLMs在口腔颌面外科领域的应用提供了重要的数据和见解。尽管目前的测试结果显示各模型之间没有显著差异,但Gemini 2.5在多数情况下表现更优,这可能反映了其在处理复杂病例时的优势。研究者认为,这些结果表明LLMs在辅助诊断和医疗教育方面具有潜在价值,但同时也需要进一步优化和研究,以提高其在实际临床环境中的表现。未来的研究可以探索更多样化的临床案例,以及不同评分机制对模型性能的影响,从而更全面地评估LLMs在医疗领域的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号