相信这个过程

《Academic Medicine》:Trust the Process

【字体: 时间:2025年09月29日 来源:Academic Medicine

编辑推荐:

  硬膜外麻醉作为分娩镇痛常用方法,患者教育需求迫切。本研究比较ChatGPT与MediSearch两大语言模型在提供硬膜外麻醉患者教育信息时的可靠性与可读性,发现MediSearch在DISCERN评分(P<0.0001)上显著优于ChatGPT,但ChatGPT在Flesch-Kincaid和Coleman-Liau可读性指标上更优。两者存在可靠性(MediSearch)与可读性(ChatGPT)的权衡,提示AI工具在医疗教育应用中需平衡专业性与通俗性。

   epidural analgesia 是一种常见的分娩镇痛方法,它通过将局部麻醉药(有时结合阿片类药物)注入椎管外空间,以阻断疼痛信号的传递。这种方法因其相对安全和有效的特性,被广泛应用于临床,特别是在美国,约有79%的初产妇和64%的经产妇在分娩过程中选择使用 epidural analgesia。尽管这种技术被广泛应用,但患者往往需要更深入的教育来全面了解其潜在风险、益处以及可能的替代方案。因此,如何有效地向患者提供信息,以支持其做出知情决策,成为医疗实践中一个重要的议题。

随着信息技术的快速发展,人工智能(AI)在医疗领域的应用逐渐增多,尤其是在患者教育方面。大型语言模型(LLMs)如 ChatGPT 和 MediSearch,因其强大的自然语言处理能力和广泛的文本覆盖范围,正成为医疗信息传播的新工具。这些模型能够根据用户输入生成内容,为患者提供即时、便捷的信息获取方式。然而,其在医疗教育中的实际效果仍需进一步验证。特别是,这些模型是否能够提供既准确又易于理解的信息,是决定其能否被广泛应用于患者教育的关键因素。

本研究旨在评估 ChatGPT 和 MediSearch 这两种 LLM 在患者教育中的表现,特别是在 epidural analgesia 相关信息的可靠性与可读性方面。研究选取了100个与 epidural analgesia 相关的患者问题,这些问题来源于 Google 的“People Also Ask”(人们也问)功能,该功能展示了与特定主题相关的常见问题。这些问题被分为三类:政策类、事实类和价值类。政策类问题通常涉及是否应采取某种行动,例如“我是否应该选择 epidural analgesia 进行分娩?”事实类问题则关注信息的真实性,如“epidural analgesia 能持续多久?”而价值类问题则要求对某种想法或事件进行评价,例如“epidural analgesia 是否有效?”

为了评估这些 LLM 的表现,研究采用了 DISCERN 可靠性评分系统和可读性指标(Flesch-Kincaid Grade Level 和 Coleman-Liau Index)。DISCERN 是一种经过验证的工具,用于评估消费者健康信息的质量,基于五个二元标准,包括信息目标是否明确、是否使用了可靠的信息来源、信息是否平衡、是否提供了额外参考资源以及是否明确指出了信息中的不确定性。而 Flesch-Kincaid Grade Level 和 Coleman-Liau Index 则分别衡量文本的复杂程度,前者反映理解该文本所需的教育水平,后者则基于单词长度和句子结构来判断阅读难度。

研究结果显示,MediSearch 在 DISCERN 可靠性评分上显著优于 ChatGPT(P < .0001),表明其在信息来源的可靠性、内容的平衡性和对不确定性的明确性方面表现更佳。相比之下,ChatGPT 在可读性方面表现更突出,其 Flesch-Kincaid Grade Level 和 Coleman-Liau Index 的平均得分显著低于 MediSearch(P = .0013)。这一结果表明,尽管 ChatGPT 能够生成更易于理解的内容,但其在提供准确、可信赖的信息方面存在不足。MediSearch 虽然在信息的可靠性上更胜一筹,但其语言风格较为复杂,可能对低教育水平或健康素养较低的患者造成理解困难。

值得注意的是,研究还分析了不同类型的患者问题在两种 LLM 之间的表现差异。在 Coleman-Liau Index 的评分上,MediSearch 对事实类问题的可读性得分明显高于 ChatGPT,而政策类和价值类问题的可读性得分则在两者之间存在一定的波动。这说明 MediSearch 的语言风格可能随着问题类型的不同而变化,从而影响其整体可读性。然而,由于 Flesch-Kincaid Grade Level 和 Coleman-Liau Index 的测量方式存在差异,这一发现并不能完全支持可读性与问题分类之间存在直接关系的结论。

从整体来看,这两种 LLM 在提供患者教育信息方面各具优势和局限。ChatGPT 的优势在于其生成内容的通俗性和可读性,能够以更贴近日常语言的方式向患者解释复杂的医学概念。然而,其缺乏可靠的引用来源,这可能影响信息的权威性和可信度。MediSearch 则在信息的可靠性方面表现出色,其内容更接近专业医学文献的风格,能够为那些具备较高健康素养的患者提供更深入、准确的信息。但其较高的可读性评分也意味着,对于教育水平较低或健康素养不足的患者,理解这些信息可能存在一定困难。

在实际应用中,这种平衡显得尤为重要。一方面,患者需要能够理解的信息,以做出明智的决策;另一方面,信息的准确性同样不可忽视,尤其是在涉及医疗决策时。如果患者仅依赖可读性高但可靠性较低的信息,可能会导致误解或错误的判断,从而影响其对 epidural analgesia 的认知和选择。因此,如何在保证信息准确性的前提下,提高其可读性,是当前 AI 在医疗教育领域面临的一个核心挑战。

此外,研究还指出,美国的健康素养水平较低,约有36%的人口处于基本或低于基本的健康素养水平,这意味着许多患者可能无法轻松理解复杂的医学信息。在这种背景下,ChatGPT 的高可读性优势显得尤为突出,因为它能够以更简单的方式呈现信息,从而帮助更多患者获取所需知识。然而,这种优势是以牺牲信息的可靠性为代价的,因此在某些情况下,患者可能需要进一步的指导或验证,以确保他们所获得的信息是准确的。

研究的局限性也值得提及。首先,本研究仅评估了两种免费版本的 LLM,并且问题集仅限于与 epidural analgesia 相关的100个问题,未能涵盖更广泛的医疗主题。其次,研究未对 LLM 生成内容的准确性进行直接评估,这可能会影响结论的全面性。未来的研究可以考虑纳入更多 LLM,扩大问题集的范围,并对内容的准确性进行更深入的分析。此外,研究还可以探索如何将这些 LLM 与医疗机构的官方网站或其他权威资源链接,以确保患者获取的信息既准确又易于理解。

总的来说,本研究为 AI 在医疗教育领域的应用提供了重要的参考。它揭示了不同 LLM 在提供患者教育信息时的优劣,并强调了在实际应用中需要权衡信息的可靠性与可读性。随着 AI 技术的不断进步,如何优化这些模型,使其在提供高质量、易读的医疗信息方面发挥更大作用,将是未来医疗教育领域的重要研究方向。同时,医疗工作者在使用这些工具时,也应保持警惕,确保其内容符合医学规范,并在必要时进行人工审核和补充,以保障患者的安全和知情权。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号