大型语言模型在妊娠期糖尿病教育中的多维评估:可靠性、可读性与临床适用性分析

《Scientific Reports》:Multidimensional assessment of large language model responses to patient questions on gestational diabetes mellitus

【字体: 时间:2025年12月13日 来源:Scientific Reports 3.9

编辑推荐:

  【编辑推荐】为评估大型语言模型(LLM)在妊娠期糖尿病(GDM)患者教育中的表现,研究人员对ChatGPT-4o、Gemini 2.5 Pro、Grok 3.0和DeepSeek R-1四款模型展开多维评估。结果显示Grok和Gemini在mDISCERN和GQS评分中表现最佳,但所有模型可读性(FRES<60)均未达到患者教育材料推荐标准。研究表明LLM可作为GDM管理的辅助工具,但需医生监督以确保信息可靠性。

  
在数字健康技术迅猛发展的今天,人工智能正逐步改变着医疗服务的提供方式。妊娠期糖尿病(Gestational Diabetes Mellitus, GDM)作为一种常见的妊娠期并发症,全球患病率约为14%,其有效管理高度依赖患者的疾病认知和自我管理能力。然而,临床实践中医生时间有限、患者健康素养参差不齐等挑战,使得传统教育模式难以满足个性化需求。大型语言模型(Large Language Models, LLMs)作为新兴的人工智能工具,能够生成类人文本回应,有望成为解决这一困境的突破口。但这些模型在妊娠特定医学问题上的准确性、可靠性和可读性如何,尚未有系统评估。
为此,由Betul Yigit Yalcin博士领衔的研究团队在《Scientific Reports》发表了题为"Multidimensional Assessment of Large Language Model Responses to Patient Questions on Gestational Diabetes Mellitus"的研究论文,对四款主流LLM在GDM患者教育方面的表现进行了全面评估。这项研究不仅关注模型回答的科学准确性,还深入分析了其可读性和语言特征,为AI在妊娠期糖尿病管理中的临床应用提供了重要参考。
研究团队采用横断面观察性设计,遵循STROBE报告规范。首先,由五位具有10年以上临床经验的内分泌专家开发了一套包含25个问题的GDM患者教育问卷,覆盖筛查诊断、母婴风险、血糖监测、生活方式管理、药物治疗和产后随访六大主题。这些问题基于真实的临床场景,并经过内容效度指数(Content Validity Index, CVI)验证,确保其临床相关性和适当性。
随后,研究者在2025年6月至7月期间,将同一组问题分别提交给ChatGPT-4o、DeepSeek R-1、Gemini 2.5 Pro和Grok-3.0四款模型,收集其首次回复共计100条。七名未参与问题开发的内分泌专家采用盲法评估方式,使用修改版DISCERN工具(mDISCERN)和全球质量量表(Global Quality Scale, GQS)对模型回复的科学可靠性和教育质量进行评分。同时,研究还运用Flesch阅读难易度评分(Flesch Reading Ease Score, FRES)、Flesch-Kincaid年级水平(Flesch-Kincaid Grade Level, FKGL)等五种标准化指标评估文本可读性,并通过型符比(Type-Token Ratio, TTR)分析词汇多样性。
质量评估结果
在科学可靠性和信息质量方面,不同模型表现出显著差异。Grok和Gemini在mDISCERN评分中表现最佳,平均得分分别为29.01±6.01和28.49±4.36,而ChatGPT得分最低(25.40±4.18)。根据预设分类标准(8-15=低可靠性,16-31=中等可靠性,32-40=高可靠性),所有模型的平均得分均处于中等可靠性范围。GQS评估结果与此一致,Gemini(4.41±0.66)和Grok(4.27±0.90)获得最高评分,ChatGPT再次排名最低(3.86±0.76)。事后分析显示,ChatGPT在mDISCERN上的得分显著低于DeepSeek,但GQS评分无统计学差异。评估者间可靠性分析显示ICC(A,7)=0.71,表明评分者间一致性良好。
可读性和文本结构分析
在可读性方面,四个模型存在显著差异。DeepSeek产生的文本最易读(FRES=49.5±7.7;FKGL=11.0±1.7),而Grok生成的文本最长且最复杂(FRES=27.7±11.5;FKGL=17.1±3.5)。ChatGPT和Gemini的可读性处于中间水平,其中ChatGPT的回答最为简洁。值得注意的是,所有模型的FRES值均低于60,未达到普通读者推荐阈值。词汇多样性分析显示,DeepSeek和Gemini的型符比高于其他模型,表明其用词更为丰富。
相关性分析结果
研究发现mDISCERN与GQS之间存在强正相关关系(ρ=0.612,p<0.001),表明两种质量评估工具结果一致。这两种质量指标均与回答长度(包括字数和字符数)呈显著正相关。在可读性指标中,Coleman-Liau指数(Coleman-Liau Index, CLI)与DISCERN评分呈中等正相关(ρ=0.439,p<0.001)。型符比与质量评分负相关,但与可读性指标正相关,表明词汇多样性高的文本往往质量评分较低但更易阅读。
研究结论强调,尽管Grok和Gemini在科学可靠性方面表现相对较好,但所有LLM生成的内容均处于中等可靠性水平,尚未达到高质量医疗信息标准。同时,所有模型的可读性均未达到患者教育材料的推荐水平,这可能限制其在健康素养较低人群中的适用性。回答长度与质量评分呈正相关,提示更详细的回答往往被评估者认为更全面可靠,但这也可能导致文本复杂性增加,降低可读性。
讨论部分指出,GDM管理在全球范围内尚未充分标准化,而LLMs在提供妊娠期糖尿病教育方面展现出潜力,但目前仍存在局限性。研究结果与先前在其他医学领域评估通用AI聊天性能的研究一致,这些研究也发现模型表现通常处于中等可靠性范围。这表明当前LLMs可以作为患者教育的辅助工具,但尚不能完全替代符合指南的专业医疗建议。
文化适应性是另一个重要考量因素。本研究使用的问题由土耳其临床医生开发,反映了当地临床环境中观察到的患者表达方式,这可能引入与英美沟通规范不同的文化细微差别。多语言比较研究已表明,ChatGPT的健康相关回应会因查询语言而在同理心、语气和准确性方面发生变化。因此,主要在英语数据集上训练的模型可能会产生语言流畅但文化不协调或语境不完整的答案。
研究的实际意义在于,LLM生成的回复应针对目标受众的健康素养水平进行定制,使用清晰且以患者为中心的语言。简化糖尿病护理教育材料已被证明可以提高治疗依从性和生活质量,而未考虑文化背景和数字素养则会降低患者参与度和干预效果。在为GDM患者准备信息回复时,专注于既易于阅读又具体、减少不必要的技术术语同时提供全面信息的文本,可能更有效地优化评估者评分。
研究的优势包括使用基于患者视角的问题、对质量和可读性进行多维评估,以及对领先当代大型语言模型的比较分析。局限性则包括仅限于英语内容、缺乏跨文化多样化人群的评估,以及仅记录每个模型的首次回复进行分析。未来的研究应包括多语言和文化多样化数据集,以确认这些结果在不同医疗环境中的适用性。
这项研究为理解LLMs在妊娠期糖尿病教育中的当前能力和局限性提供了重要见解。尽管现有模型产生的内容具有中等可靠性且可读性各异,但其输出仍不足以用于无监督的患者使用。这些系统需要进一步开发并与临床指南保持一致,整合到医生监督的护理路径中,以支持患者教育。随着人工智能技术的不断进步和医学特定模型的开发,LLMs有望在弥补产前护理可及性差距方面发挥重要作用,特别是在资源有限的环境中提供快速、全天候可及且语言适应性强的回应。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号