大语言模型在提升骨科脊柱患者教育材料可读性中的作用

【字体: 时间:2025年05月29日 来源:Journal of Orthopaedic Surgery and Research 2.8

编辑推荐:

  当前骨科脊柱患者教育材料可读性常超 AMA 推荐的六年级水平。本研究分析 19 篇 OrthoInfo 文章,用 ChatGPT、Gemini、CoPilot 迭代简化,发现 LLMs 显著改善 Flesch-Kincaid 分级和阅读 ease 分数,且准确性稳定,为提升患者健康 literacy 提供新策略。

  
在医学领域,患者能否准确理解专业的医疗信息对其做出知情决策至关重要。然而,现实情况是,许多患者教育材料的可读性存在问题。美国国家成人识字评估显示,美国成年人平均阅读水平为八年级,医疗补助参保者仅为五年级,而美国医学协会(AMA)建议患者教育材料应控制在六年级及以下阅读水平,以确保 accessibility。但实际情况是,2018 年的一项系统评价指出,许多健康教育资源的阅读水平在 10 到 15 年级,骨科领域也存在类似问题。美国骨科医师学会(AAOS)的 OrthoInfo 网站虽提供面向公众的教育内容,但此前研究表明骨科教育材料常超出推荐阅读水平,且其脊柱内容因复杂性和临床重要性,尚未得到系统评估。尽管其他医学专科已显示大语言模型(LLMs)可在不影响准确性的前提下改善患者教育材料可读性,但在骨科,尤其是脊柱相关内容中的应用研究仍有限,且存在对事实可靠性、医疗法律影响等担忧,缺乏正式指南和验证实施策略。

为解决上述问题,美国加州大学欧文分校医学院骨科的研究人员开展了相关研究。他们分析了 OrthoInfo 网站上 19 篇脊柱相关教育文章,评估其可读性,并探究 LLMs 改善可读性的能力。研究发现,LLMs 能有效简化骨科教育内容,降低分级水平,提升可读性,同时保持可接受的准确性,为将 LLMs 整合到患者教育工作流程中提供了依据,有助于提高健康 literacy,促进患者理解,推动医疗信息在不同人群中的公平获取。该研究成果发表在《Journal of Orthopaedic Surgery and Research》。

研究采用了以下主要关键技术方法:
选取 OrthoInfo 网站脊柱疾病治疗相关文章,排除视频为主的内容,分为背景、手术、观点三类,提取纯文本。使用 ChatGPT GPT-4o、Copilot、Gemini 1.5 Flash-8B 三款 LLMs,通过 “总结”“澄清” 等迭代提示进行文本简化。运用 Readable 软件计算 Flesch-Kincaid Grade Level 和 Flesch Reading Ease 评估可读性,两位医师用三点量表独立评估准确性,采用 R 软件进行单因素、双因素方差分析及 Tukey 事后检验等统计分析。

基线特征


初步筛选的 23 个网页中,19 篇符合纳入标准(8 篇手术、10 篇背景、1 篇观点),4 篇因视频内容为主被排除。基线分析显示,19 篇文章的 Flesch-Kincaid 平均分级为 9.5,超过 AMA 推荐的六年级水平,Flesch 阅读 ease 平均分为 51.1,属 “较难” 水平。文章平均含 1269 词、2.8 幅图。手术类文章更短(1033 词),但阅读难度更高(分级 9.8,阅读 ease 49),图更多(4 幅 / 篇);背景类文章更长(1523 词),阅读稍易(分级 8.7,阅读 ease 54),图较少(2 幅 / 篇)。

LLM 分析


所有模型均显著减少字数(p<0.0001),第一步简化时减少最多,后续趋于平稳。阅读 ease 分数显著提升(p<0.0001),第一步改善最大,第二步仍有显著提升。分级水平在步骤间变化显著(p<0.0001),但第一步出现意外升高,后续逐步降低,趋向目标水平。三款 LLMs 在减少字数、提升阅读 ease、降低分级方面表现相似,无显著差异。但双因素方差分析显示,Gemini 比 ChatGPT 和 CoPilot 更频繁加入适当免责声明(p<0.05)。ChatGPT 在阅读 ease 提升和分级降低上略优于 Gemini,CoPilot 与两者表现相近。各步骤间准确性略有波动,但模型间无显著差异,未出现幻觉或内容质量、医学相关性受损情况。

研究表明,LLMs 如 ChatGPT、Gemini、CoPilot 可有效提升骨科教育材料可读性,缩小当前材料与 AMA 推荐的六年级阅读水平差距。通过显著降低分级、改善阅读 ease,模型在不影响准确性的前提下简化医学内容。尽管 ChatGPT 在可读性提升上稍优,但所有模型在各步骤均实现渐进式简化,显示迭代文本优化的可行性。

该研究为 LLMs 在患者教育中的应用提供了实证支持,提示其可作为一种可扩展策略,提升健康 literacy,促进患者对医疗信息的理解,推动不同人群公平获取医疗信息。不过,研究局限在于仅聚焦现有内容简化,未评估 LLMs 生成新内容或针对特定患者材料的能力,且可读性指标不能完全反映理解程度,尤其对健康 literacy 有限者。未来需开展定性研究,纳入不同 literacy 水平患者的用户测试,直接评估理解情况,进一步优化 LLMs,确保患者教育材料对所有人群都具可及性和有效性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号