美国和中国开发的大型语言模型在双语冠心病患者教育方面的横断面比较评估
《Intelligent Medicine》:Cross-sectional comparative evaluation of us- and china-developed large language models for bilingual coronary heart disease patient education
【字体:
大
中
小
】
时间:2025年11月21日
来源:Intelligent Medicine 6.9
编辑推荐:
冠心病患者教育中中美LLMs的性能比较:基于双语提示的四个维度评估,发现OpenAI o1整体最优,中文提示提升全面性与同理心但降低易懂性,模型-语言-维度交互显著。
冠状动脉疾病(Coronary Heart Disease, CHD)是全球范围内导致死亡的主要原因之一,对医疗系统带来了沉重的临床和经济负担。随着医疗信息的普及和患者对健康知识的需求日益增长,医疗人工智能(AI)技术,尤其是大型语言模型(Large Language Models, LLMs),正在成为患者教育的重要工具。然而,尽管LLMs在医疗领域的应用逐渐增多,其性能是否受到模型来源国(如美国或中国)以及提示语言(如英文或中文)的影响,仍然是一个尚未完全解决的问题。为了深入探讨这一问题,本研究对六种主流LLMs进行了系统的双语比较,分析其在回答CHD相关问题时的表现差异。
本研究的初衷源于一个重要的现实问题:患者教育的质量直接影响其对疾病的理解、自我管理能力和治疗依从性。这些因素不仅关系到患者的健康结果,还可能影响医疗资源的合理利用和整体医疗成本。然而,由于医疗人员的工作负担日益加重,如何利用LLMs来提供高效、准确的患者教育成为了一个亟待解决的课题。LLMs的广泛应用为患者教育提供了新的可能性,但其在不同语言环境下的表现差异尚未被系统评估。特别是,许多领先的LLMs主要基于英文语料库进行训练,而中文作为全球第二大语言,其在医疗领域中的使用日益广泛,因此有必要评估这些模型在中文环境下的表现。
本研究选择了六种主流LLMs,包括三种来自美国的模型(GPT-4o、OpenAI o1和Gemini 1.5)以及三种来自中国的模型(DeepSeek-R1、ERNIE Bot 3.5和Doubao)。这些模型均具备处理中英文提示的能力,且在实际应用中获得了广泛的用户基础。为了确保研究的科学性和客观性,所有问题均来自实际门诊记录,并由两名有经验的心脏病专家进行验证,以确保问题的临床相关性和清晰度。最终,研究团队确定了30个代表性问题,涵盖了CHD的预防、诊断、治疗和预后等多个方面。
研究方法采用了严格的双语提示机制,即每个问题首先以中文提问,再由机器翻译为英文,并在两种语言环境下分别进行评估。为保证评估的独立性和一致性,研究团队邀请了三位具有超过十年临床经验的心脏病专家,每位专家均具备双语能力(两位为母语中文,一位为母语英文且能熟练使用中文),以避免语言理解偏差。所有模型的回答均以相同的顺序呈现,且由计算机生成随机序列,以减少人为偏见。评估维度包括正确性、全面性、可理解性和同理心,每个维度均采用四点李克特量表进行评分,以量化各模型在不同语言环境下的表现差异。
统计分析采用了累积链接混合模型(Cumulative-Link Mixed Models, CLMMs),以考虑问题和评分者之间的随机变异性。模型的主要效应、交互效应及维度效应均通过类型III似然比卡方检验(Type III likelihood-ratio χ2 tests)进行评估,并通过Holm校正方法对多重比较进行调整。结果显示,模型性能在不同语言和评估维度之间存在显著差异。具体而言,OpenAI o1在所有维度上表现最为突出,其在英文提示下的正确性、全面性和可理解性均优于其他模型,而在中文提示下,其同理心表现尤为突出。相比之下,DeepSeek-R1在英文提示下表现优异,但在中文提示下略逊一筹。Doubao则在中文提示下表现出显著的优势,尤其是在同理心和全面性方面。ERNIE Bot 3.5和Gemini 1.5在中文提示下表现出一定的劣势,尤其是在正确性和可理解性方面。
进一步的分析显示,中文提示相较于英文提示,虽然在全面性和同理心方面提升了模型的表现,但可理解性有所下降。这表明,尽管中文提示能够增强模型对患者情感需求的响应能力,但其在语言表达的清晰度方面仍存在不足。另一方面,英文提示下的模型表现更加稳定,特别是在正确性和可理解性方面,显示出更高的一致性。这种语言差异可能与模型训练数据的来源有关,许多LLMs的训练语料库以英文为主,因此在处理中文提示时可能存在一定的语言适应性问题。此外,中文语料库中医疗信息的多样性相对较低,这也可能影响了模型在中文环境下的表现。
研究还发现,模型的性能不仅受到语言的影响,还与评估维度密切相关。例如,在正确性方面,所有模型的表现相对稳定,但在全面性和可理解性方面,语言差异则更为显著。这提示我们,如果要利用LLMs进行有效的患者教育,必须根据具体的评估维度选择合适的模型。此外,模型的架构和训练方法也对性能产生了重要影响。OpenAI o1和DeepSeek-R1作为支持链式推理(chain-of-thought reasoning)的模型,其综合表现优于其他模型,这可能与其处理复杂任务的能力有关。
研究的局限性在于,所使用的测试集相对狭窄,仅包含30个CHD相关问题,并由三位专家进行评分。因此,研究结果的普遍适用性仍需进一步验证。此外,LLMs的更新迭代速度较快,模型排名可能会随新版本的发布而发生变化。研究还未能评估LLMs在实际临床环境中的影响,例如是否能真正提高患者的健康知识水平、治疗依从性或安全性。因此,未来的研究需要扩展测试集的范围,增加更多语言和评估维度,以更全面地评估LLMs在不同语言环境下的表现。
总的来说,本研究揭示了LLMs在双语CHD患者教育中的表现差异,强调了模型来源国和提示语言对性能的影响。同时,研究也指出了模型在不同维度上的表现特点,为临床医生、患者和健康信息提供者选择适合的LLMs提供了实用的指导。未来,随着更多语言和临床场景的纳入,以及更高质量的训练数据的积累,LLMs在医疗领域的应用将更加广泛和精准。此外,研究还强调了针对特定语言和领域进行模型微调的重要性,以提高其在不同语言环境下的表现,从而实现更加公平和有效的健康信息传播。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号