
-
生物通官微
陪你抓住生命科技
跳动的脉搏
评估不同大型语言模型在整形外科和美学手术领域的应用效果:一项横断面盲法研究
《Aesthetic Plastic Surgery》:Evaluating the Performance of Different Large Language Models on Plastic and Aesthetic Surgery: A Cross-Sectional Blinded Study
【字体: 大 中 小 】 时间:2025年11月02日 来源:Aesthetic Plastic Surgery 2.8
编辑推荐:
大语言模型在医美临床决策支持与患者咨询中的性能评估显示,DeepSeek R1在全面性、可读性和人文关怀方面显著优于GPT-4o和Claude 3.5,后者因信任度与全面性不足影响临床可靠性。研究通过125个涵盖多场景的问题测试,采用专家盲评机制,为不同临床场景的模型选型提供依据。
大型语言模型(LLMs)在各个医学领域展现了潜力。然而,它们在美容整形手术中的应用仍然很大程度上未被探索,尤其是在临床决策支持和患者咨询方面。鉴于整形手术结合了医学知识、审美判断以及医患沟通,因此需要对LLMs的性能进行系统评估。
本研究旨在评估三种广泛使用的LLMs——GPT-4o(OpenAI)、DeepSeek R1(DeepSeek)和Claude 3.5(Anthropic)在美容整形手术中的能力,包括面部美学、身体轮廓塑造和非手术干预措施,旨在为不同临床环境下的模型选择提供基于证据的推荐,并为未来特定领域语言模型的设计和优化提供参考。
共设计了125个问题,涵盖多项选择题、临床案例分析、专家指南遵循情况以及患者咨询场景。每位模型的回答由三位匿名的整形外科专家根据预定义的标准进行评估,这些标准包括准确性、全面性、可读性、人文关怀和伦理考量。
DeepSeek R1在多个方面的表现优于或至少与GPT-4o和Claude 3.5相当,特别是在全面性(P = 0.04)、可读性(P < 0.001)和人文关怀(P < 0.001)方面。虽然所有模型都保持了合理的安全性和伦理标准,但Claude 3.5在可信度和全面性方面的得分较低,这限制了其在临床决策支持中的可靠性。
在评估的三种LLMs中,DeepSeek R1在全面性、可读性和人文关怀方面表现突出;GPT-4o在科学准确性和安全性方面表现良好,而Claude 3.5在逻辑连贯性方面具有相对优势。
本期刊要求作者为每篇可进行循证医学评级的投稿分配一个证据等级。这排除了综述文章、书评以及涉及基础科学、动物研究、尸体研究和实验研究的稿件。有关这些循证医学评级的完整描述,请参阅目录或在线作者指南 www.springer.com/00266。
大型语言模型(LLMs)在各个医学领域展现了潜力。然而,它们在美容整形手术中的应用仍然很大程度上未被探索,尤其是在临床决策支持和患者咨询方面。鉴于整形手术结合了医学知识、审美判断以及医患沟通,因此需要对LLMs的性能进行系统评估。
本研究旨在评估三种广泛使用的LLMs——GPT-4o(OpenAI)、DeepSeek R1(DeepSeek)和Claude 3.5(Anthropic)在美容整形手术中的能力,包括面部美学、身体轮廓塑造和非手术干预措施,旨在为不同临床环境下的模型选择提供基于证据的推荐,并为未来特定领域语言模型的设计和优化提供参考。
共设计了125个问题,涵盖多项选择题、临床案例分析、专家指南遵循情况以及患者咨询场景。每位模型的回答由三位匿名的整形外科专家根据预定义的标准进行评估,这些标准包括准确性、全面性、可读性、人文关怀和伦理考量。
DeepSeek R1在多个方面的表现优于或至少与GPT-4o和Claude 3.5相当,特别是在全面性(P = 0.04)、可读性(P < 0.001)和人文关怀(P < 0.001)方面。虽然所有模型都保持了合理的安全性和伦理标准,但Claude 3.5在可信度和全面性方面的得分较低,这限制了其在临床决策支持中的可靠性。
在评估的三种LLMs中,DeepSeek R1在全面性、可读性和人文关怀方面表现突出;GPT-4o在科学准确性和安全性方面表现良好,而Claude 3.5在逻辑连贯性方面具有相对优势。
本期刊要求作者为每篇可进行循证医学评级的投稿分配一个证据等级。这排除了综述文章、书评以及涉及基础科学、动物研究、尸体研究和实验研究的稿件。有关这些循证医学评级的完整描述,请参阅目录或在线作者指南 www.springer.com/00266。
生物通微信公众号
知名企业招聘