大语言模型在提升骨科脊柱患者教育材料可读性中的作用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月29日 来源：Journal of Orthopaedic Surgery and Research 2.8

编辑推荐：

　　当前骨科脊柱患者教育材料可读性常超 AMA 推荐的六年级水平。本研究分析 19 篇 OrthoInfo 文章，用 ChatGPT、Gemini、CoPilot 迭代简化，发现 LLMs 显著改善 Flesch-Kincaid 分级和阅读 ease 分数，且准确性稳定，为提升患者健康 literacy 提供新策略。

在医学领域，患者能否准确理解专业的医疗信息对其做出知情决策至关重要。然而，现实情况是，许多患者教育材料的可读性存在问题。美国国家成人识字评估显示，美国成年人平均阅读水平为八年级，医疗补助参保者仅为五年级，而美国医学协会（AMA）建议患者教育材料应控制在六年级及以下阅读水平，以确保 accessibility。但实际情况是，2018 年的一项系统评价指出，许多健康教育资源的阅读水平在 10 到 15 年级，骨科领域也存在类似问题。美国骨科医师学会（AAOS）的 OrthoInfo 网站虽提供面向公众的教育内容，但此前研究表明骨科教育材料常超出推荐阅读水平，且其脊柱内容因复杂性和临床重要性，尚未得到系统评估。尽管其他医学专科已显示大语言模型（LLMs）可在不影响准确性的前提下改善患者教育材料可读性，但在骨科，尤其是脊柱相关内容中的应用研究仍有限，且存在对事实可靠性、医疗法律影响等担忧，缺乏正式指南和验证实施策略。

为解决上述问题，美国加州大学欧文分校医学院骨科的研究人员开展了相关研究。他们分析了 OrthoInfo 网站上 19 篇脊柱相关教育文章，评估其可读性，并探究 LLMs 改善可读性的能力。研究发现，LLMs 能有效简化骨科教育内容，降低分级水平，提升可读性，同时保持可接受的准确性，为将 LLMs 整合到患者教育工作流程中提供了依据，有助于提高健康 literacy，促进患者理解，推动医疗信息在不同人群中的公平获取。该研究成果发表在《Journal of Orthopaedic Surgery and Research》。

研究采用了以下主要关键技术方法：
选取 OrthoInfo 网站脊柱疾病治疗相关文章，排除视频为主的内容，分为背景、手术、观点三类，提取纯文本。使用 ChatGPT GPT-4o、Copilot、Gemini 1.5 Flash-8B 三款 LLMs，通过 “总结”“澄清” 等迭代提示进行文本简化。运用 Readable 软件计算 Flesch-Kincaid Grade Level 和 Flesch Reading Ease 评估可读性，两位医师用三点量表独立评估准确性，采用 R 软件进行单因素、双因素方差分析及 Tukey 事后检验等统计分析。

基线特征

初步筛选的 23 个网页中，19 篇符合纳入标准（8 篇手术、10 篇背景、1 篇观点），4 篇因视频内容为主被排除。基线分析显示，19 篇文章的 Flesch-Kincaid 平均分级为 9.5，超过 AMA 推荐的六年级水平，Flesch 阅读 ease 平均分为 51.1，属 “较难” 水平。文章平均含 1269 词、2.8 幅图。手术类文章更短（1033 词），但阅读难度更高（分级 9.8，阅读 ease 49），图更多（4 幅 / 篇）；背景类文章更长（1523 词），阅读稍易（分级 8.7，阅读 ease 54），图较少（2 幅 / 篇）。

LLM 分析

所有模型均显著减少字数（p<0.0001），第一步简化时减少最多，后续趋于平稳。阅读 ease 分数显著提升（p<0.0001），第一步改善最大，第二步仍有显著提升。分级水平在步骤间变化显著（p<0.0001），但第一步出现意外升高，后续逐步降低，趋向目标水平。三款 LLMs 在减少字数、提升阅读 ease、降低分级方面表现相似，无显著差异。但双因素方差分析显示，Gemini 比 ChatGPT 和 CoPilot 更频繁加入适当免责声明（p<0.05）。ChatGPT 在阅读 ease 提升和分级降低上略优于 Gemini，CoPilot 与两者表现相近。各步骤间准确性略有波动，但模型间无显著差异，未出现幻觉或内容质量、医学相关性受损情况。

研究表明，LLMs 如 ChatGPT、Gemini、CoPilot 可有效提升骨科教育材料可读性，缩小当前材料与 AMA 推荐的六年级阅读水平差距。通过显著降低分级、改善阅读 ease，模型在不影响准确性的前提下简化医学内容。尽管 ChatGPT 在可读性提升上稍优，但所有模型在各步骤均实现渐进式简化，显示迭代文本优化的可行性。

该研究为 LLMs 在患者教育中的应用提供了实证支持，提示其可作为一种可扩展策略，提升健康 literacy，促进患者对医疗信息的理解，推动不同人群公平获取医疗信息。不过，研究局限在于仅聚焦现有内容简化，未评估 LLMs 生成新内容或针对特定患者材料的能力，且可读性指标不能完全反映理解程度，尤其对健康 literacy 有限者。未来需开展定性研究，纳入不同 literacy 水平患者的用户测试，直接评估理解情况，进一步优化 LLMs，确保患者教育材料对所有人群都具可及性和有效性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号