一种古老的疾病,对大型语言模型来说是一个新的语言学挑战:在一种使用频率较低的医学语言中,如何对银屑病和银屑病关节炎患者进行科普教育
《International Journal of Medical Informatics》:An old disease, a new linguistic challenge for large language models: patient education on psoriasis and psoriatic arthritis in an underrepresented medical language
【字体:
大
中
小
】
时间:2026年01月12日
来源:International Journal of Medical Informatics 4.1
编辑推荐:
LLMs在土耳其语银屑病及关节炎患者教育材料生成中的可读性、科学性和患者中心性差异显著,ChatGPT-4o和Qwen可读性最高,Claude 3.7 Sonnet和Gemini 2.0 Flash科学性更优,但普遍缺乏心理社会维度和医患协作强调,需加强跨文化验证和临床审核。
阿赫梅特·乌古尔·阿蒂兰 | 尼亚齐·杰廷
土耳其代尼兹利市帕穆卡莱大学医学院皮肤科
摘要
目的
大型语言模型(LLMs)越来越多地应用于患者教育,但它们在医学领域语料库和大型语言模型训练数据集中代表性较低的语言中的表现仍需进一步研究。银屑病和银屑病关节炎(PsA)是慢性、免疫介导的疾病,需要患者长期参与治疗,这使得它们成为评估人工智能生成教育内容的清晰度、可靠性和包容性的理想对象。本研究旨在评估七种最先进的大型语言模型生成的关于寻常型银屑病和银屑病关节炎的土耳其语患者教育材料的可理解性、科学可靠性和以患者为中心的沟通效果。
方法
本研究采用横断面分析方法,比较了ChatGPT-4o、Gemini 2.0 Flash、Claude 3.7 Sonnet、Grok 3、Qwen 2.5、DeepSeek R1和Mistral Large 2的输出结果。这些材料是根据标准化零样本提示生成的,并通过Ate?man可读性指数和DISCERN工具进行了评估。使用Friedman检验分析了七种模型之间的DISCERN得分差异,随后进行了Bonferroni校正的Wilcoxon符号秩检验。
结果
可读性得分范围为61.6至80.2(平均值=71.3±6.9),其中ChatGPT-4o和Qwen 2.5生成的材料最易于理解。DISCERN可靠性得分范围为38.5至60.5,Claude 3.7 Sonnet和Gemini 2.0 Flash的准确性最高。注重事实精确性的模型生成的语言较为冗长,而更具对话风格的模型则更注重流畅性,但牺牲了深度。值得注意的是,只有Claude 3.7 Sonnet和Gemini 2.0 Flash始终体现了以患者为中心的视角。
结论
大型语言模型在生成土耳其语健康教育材料时,在平衡清晰度和可靠性方面存在明显差异。大多数输出缺乏明确的心理社会框架和对共同决策的强调,这表明需要更具文化适应性的培训、临床监督以及本地化的验证框架,以支持安全且包容的人工智能患者教育。
引言
银屑病和银屑病关节炎(PsA)是慢性、免疫介导的炎症性疾病,不仅影响皮肤和关节,还会严重影响患者的日常生活、社会功能及心理健康[1]。银屑病的可见性和复发性可能导致污名化、焦虑和抑郁,而银屑病关节炎常伴有疼痛和身体功能障碍,进一步降低生活质量[2]。这些疾病还与心血管和代谢性疾病等系统性疾病相关,凸显了其慢性及多系统的影响[3][4]。因此,患者教育是银屑病治疗的基石,因为提高对疾病及其治疗的理解有助于提高患者的依从性、自我管理能力和健康结果[5]。然而,传统的教育资源往往缺乏可读性、可访问性和文化适应性[6]。
最近,基于人工智能(AI)的大型语言模型(LLMs)如ChatGPT-4o已成为大规模生成患者友好型教育内容的有希望的工具[7][8]。这些模型能够将复杂的皮肤科信息转化为易于理解的个性化文本,在及时性和可扩展性方面具有优势。然而,关于事实准确性、语境敏感性和文化适宜性仍存在担忧[9][10]。
新兴研究开始评估LLMs生成皮肤科患者教育材料的能力[7][8][9][11][12]。一项盲法比较研究表明,不同模型生成的信息在准确性和语气上存在显著差异,反映了内容可靠性的不一致性[7]。另一项研究发现,人工智能生成的患者材料达到了可接受的可读性水平,但在事实准确性方面存在明显不足,表明需要改进质量控制机制[9][11]。此外,现有证据主要局限于英语数据集,对于这些模型在医学领域语料库和大型语言模型训练数据集中代表性较低的语言中的表现了解不足[12][13]。土耳其语是一种形态丰富的语言,具有复杂的后缀系统,且相关领域的语料库有限[14][15]。这些特点给大型语言模型在分词、语境嵌入和医学术语消歧方面带来了独特挑战。先前的自然语言处理(NLP)研究表明,即使是最先进的系统在处理土耳其语医学文本时也存在形态学分割和词汇稀缺的问题[15][16]。
为填补这一空白,本研究系统评估了七种大型语言模型生成土耳其语寻常型银屑病和银屑病关节炎患者教育材料的能力。通过考察语言准确性、临床适宜性、可读性和以患者为中心的特点,本研究旨在为人工智能在患者教育和健康传播中的安全、公平和语言包容性应用提供初步见解。
研究设计与AI模型
这项横断面概念验证比较评估了七种最先进的大型语言模型(LLMs)生成土耳其语寻常型银屑病和银屑病关节炎(PsA)患者教育材料的能力。所评估的模型包括ChatGPT-4o(OpenAI)、Gemini 2.0 Flash(Google DeepMind)、Claude 3.7 Sonnet(Anthropic)、Grok 3(xAI)、Qwen 2.5(Alibaba Cloud)、DeepSeek R1(DeepSeek AI)和Mistral Large 2(Mistral AI)。每个模型均通过其官方网站界面进行访问。
可读性与字数
使用Ate?man公式计算的可读性得分在七种模型之间存在显著差异(图1)。得分范围为61.6至80.2,中位数为73.8(IQR:66.7–78.4),平均值为71.3±6.9。根据Ate?man分类,ChatGPT的得分最高,属于“容易”级别,相当于小学高年级到初中低年级(5–7年级)。Qwen、Grok和DeepSeek的得分也处于“容易”范围内(70–89)。讨论
这项横断面评估显示,七种现代大型语言模型在生成土耳其语银屑病和银屑病关节炎患者教育材料方面存在显著差异。观察到的差异应被视为探索性的和假设生成的,而非对模型性能的最终评估。总体而言,这些模型在平衡语言可访问性和科学准确性方面存在差异,这两者都是有效教育的关键组成部分。
局限性
这项探索性评估存在若干局限性。研究样本量较小,每种模型仅生成了两份材料,且评估仅在单一时间点进行。这仅反映了七种公开可用大型语言模型在某一时间点的表现;随着后续更新,其性能可能会发生变化。由于大型语言模型的输出具有随机性,仅基于一次生成结果可能无法完全反映其输出变异性或性能。
结论
本研究强调了超越以英语为中心的基准来评估大型语言模型的重要性,表明语言环境对人工智能生成的健康材料的清晰度和可靠性有显著影响。结合可读性和科学质量指标为评估土耳其语等在医学领域语料库和大型语言模型训练数据集中代表性较低的语言的输出提供了初步框架。未来的研究应扩展这些发现。
先前发表情况
本研究成果尚未发表,也未考虑在其他地方发表。
伦理声明
所有分析均基于公开可用的大型语言模型生成的输出,未使用任何可识别的患者或临床数据。
伦理批准
本研究未涉及人类参与者、患者数据或动物实验,因此无需机构伦理批准。
关于写作过程中生成式AI和AI辅助技术的声明
在准备本手稿期间,作者使用了Grammarly AI免费版本来改进语言清晰度和语法。使用该工具后,作者对内容进行了彻底审查和编辑,并对本文的准确性和完整性负全责。
作者贡献声明
阿赫梅特·乌古尔·阿蒂兰:撰写——审阅与编辑、初稿撰写、监督、资源提供、方法论设计、调查实施、数据分析、概念构建。尼亚齐·杰廷:撰写——审阅与编辑、初稿撰写、监督、资源提供、方法论设计、调查实施、数据分析、概念构建。
资金支持
本研究未获得任何公共、商业或非营利机构的资助。
利益冲突声明
作者声明没有已知的利益冲突或个人关系可能影响本文的研究结果。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号