大型语言模型（LLMs）能否简化手术记录？一项在耳鼻喉科领域的比较分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《European Archives of Oto-Rhino-Laryngology》：Can LLMs simplify operative notes? A comparative analysis in otorhinolaryngology

【字体：大中小】 时间：2025年11月03日 来源：European Archives of Oto-Rhino-Laryngology 2.2

编辑推荐：

　　本研究评估六种大型语言模型（LLMs）对耳鼻喉科手术记录简化的效果，通过可读性指标和专家评估发现GPT-4o、Gemini等模型更易读，但临床准确性因模型和子领域而异，强调需结合用户需求并经专家审核。

摘要

引言

手术记录在记录手术过程和支持医疗沟通方面发挥着关键作用。然而，由于这些文档使用的技术性语言，它们通常对于患者、非医疗专业人员甚至一些医疗保健从业者来说都显得复杂且难以理解。大型语言模型（LLMs）为简化此类文档并提高其可读性提供了新的机会。本研究旨在量化六种LLMs在简化耳鼻喉科手术记录方面的效果，并比较其可读性、临床准确性和清晰度。

材料与方法

在本研究中，使用六种LLMs（GPT-4、GPT-4o、Claude 3.7、Gemini 2.0、DeepSeek和Microsoft Copilot）对39份专门针对耳鼻喉科手术的虚构手术记录进行了简化处理。输出结果通过八种不同的可读性指标进行了分析，并由两位专家医生从医学准确性和可理解性方面进行了评估。此外，还针对不同临床亚组（鼻科学、耳科学、头颈外科）进行了相关性分析。

结果

Claude 3.7生成的输出最为复杂，而GPT-4o、Gemini和DeepSeek生成的文本最易阅读。根据专家评估，GPT-4在医学准确性方面得分最高，而GPT-4o在清晰度方面获得了最高评价。各模型在不同临床亚组中的表现存在差异。

结论

LLMs是简化医学文本的有效工具；然而，在选择模型时应考虑目标受众和临床背景，并且所有输出结果都必须经过医学专家的验证。当以受控和经过验证的方式使用LLMs时，它们可能为医疗沟通的新时代做出重大贡献。

证据水平

不适用。

引言

手术记录在记录手术过程和支持医疗沟通方面发挥着关键作用。然而，由于这些文档使用的技术性语言，它们通常对于患者、非医疗专业人员甚至一些医疗保健从业者来说都显得复杂且难以理解。大型语言模型（LLMs）为简化此类文档并提高其可读性提供了新的机会。本研究旨在量化六种LLMs在简化耳鼻喉科手术记录方面的效果，并比较其可读性、临床准确性和清晰度。

材料与方法

在本研究中，使用六种LLMs（GPT-4、GPT-4o、Claude 3.7、Gemini 2.0、DeepSeek和Microsoft Copilot）对39份专门针对耳鼻喉科手术的虚构手术记录进行了简化处理。输出结果通过八种不同的可读性指标进行了分析，并由两位专家医生从医学准确性和可理解性方面进行了评估。此外，还针对不同临床亚组（鼻科学、耳科学、头颈外科）进行了相关性分析。

结果

Claude 3.7生成的输出最为复杂，而GPT-4o、Gemini和DeepSeek生成的文本最易阅读。根据专家评估，GPT-4在医学准确性方面得分最高，而GPT-4o在清晰度方面获得了最高评价。各模型在不同临床亚组中的表现存在差异。

结论

LLMs是简化医学文本的有效工具；然而，在选择模型时应考虑目标受众和临床背景，并且所有输出结果都必须经过医学专家的验证。当以受控和经过验证的方式使用LLMs时，它们可能为医疗沟通的新时代做出重大贡献。

证据水平

不适用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号