探索与比较大型语言模型在支持骨质疏松症健康咨询中的应用
《Clinical Interventions in Aging》:Exploring and Comparing the Use of Large Language Models in Supporting Osteoporosis Health Consultations
【字体:
大
中
小
】
时间:2025年11月22日
来源:Clinical Interventions in Aging 3.7
编辑推荐:
本研究比较了ChatGPT-4o、Gemini-2.5 Pro和DeepSeek-R1在骨质疏松症相关问答中的表现,由五位骨科专家评估其医学准确性和内容全面性。结果显示ChatGPT-4o在准确性和一致性上显著优于其他模型,而DeepSeek-R1存在较大波动。研究证实LLMs可作为患者教育工具,但需专业监督以确保安全性和准确性。
随着全球人口老龄化的加剧,骨质疏松症作为一种常见的慢性代谢性骨骼疾病,其患病率持续上升,给公共卫生体系带来了巨大的挑战。这种疾病不仅增加了骨折的风险,还显著影响患者的生活质量,甚至导致残疾和死亡率的上升。因此,探索高效且可靠的补充工具以增强患者教育的质量和可及性变得尤为重要。近年来,人工智能(AI)技术,特别是大型语言模型(LLMs)的迅速发展,为医疗健康教育提供了新的可能性。这些模型能够根据自然语言输入生成语义连贯的回答,从而在患者咨询和健康教育中发挥重要作用。然而,LLMs生成内容的准确性、完整性以及临床实用性仍缺乏充分验证。
本研究旨在评估三种主流LLMs——ChatGPT-4o、Gemini-2.5 Pro和DeepSeek-R1——在回答骨质疏松症相关常见问题时的医学准确性和内容完整性。研究团队设计了25个具有代表性的临床问题,涵盖病理机制、风险因素、临床表现、诊断方法、治疗与预防措施以及预后管理六大主题。这些问题来源于多个权威的在线健康信息平台,并经过专家小组的筛选和修订,以确保其反映真实患者和临床医生在实际诊疗过程中常提出的问题。所有模型的响应均在独立的对话窗口中生成,未提供任何上下文信息,也未进行后续的人工编辑或优化,以保证评估的客观性。
为了确保评估的公正性,五位拥有超过25年临床经验的骨科专家组成评分小组,对每个模型的回答进行盲评。评分过程采用5分制的李克特量表,其中“可接受”或更高的评分被视为符合临床要求的标准。对于获得“可接受”评分的回答,专家们进一步评估其内容的全面性。研究中使用的统计方法包括Kruskal–Wallis检验和Dunn’s检验,结合Bonferroni校正以确保结果的可靠性。
研究结果显示,ChatGPT-4o在医学准确性方面表现最佳,其中位数评分为4.6,而Gemini-2.5 Pro和DeepSeek-R1的中位数分别为4.4和4.2。这一差异在统计学上具有显著性,表明ChatGPT-4o在提供准确且专业的医学信息方面优于其他两个模型。此外,ChatGPT-4o在内容全面性方面也表现较为均衡,与Gemini-2.5 Pro的中位数评分相同,均为4.4,而DeepSeek-R1的评分则稍低。尽管在统计学上这些差异并未达到显著水平,但通过可视化分析和具体问题的评分分布可以看出,ChatGPT-4o在多个临床领域,如诊断、骨折风险评估和治疗指南方面,表现更为稳定和一致。
Gemini-2.5 Pro在语言流畅性和用户友好性方面表现出色,其回答通常结构清晰、易于理解,适合普通患者阅读和接受。然而,在涉及临床推理和技术细节的问题上,其回答的准确性和深度略逊于ChatGPT-4o。相比之下,DeepSeek-R1虽然能够提供实时网络检索和引用来源,但其回答在准确性和一致性方面存在较大波动,这可能与其依赖外部信息源的特性有关。由于其内容验证机制不够完善,DeepSeek-R1在某些问题上出现了事实错误或术语不准确的情况,这在医疗环境中可能带来潜在的风险。
从临床实践的角度来看,LLMs在骨质疏松症患者的教育支持方面展现出一定的潜力。它们可以作为医生的辅助工具,帮助患者更好地理解疾病的相关知识,提高治疗依从性,并在医生无法及时提供信息时,为患者提供基本的指导。然而,研究也指出,尽管LLMs能够提供结构化和易于理解的信息,但它们在临床推理、个性化咨询以及情感支持方面仍存在局限。医疗决策往往需要考虑患者的具体情况,如肾功能、多药联用、骨折史以及心理社会因素,这些复杂变量是当前LLMs难以全面捕捉的。因此,尽管LLMs在提高信息传播效率方面具有优势,但其在实际医疗场景中的应用仍需医生的监督和指导。
研究还强调了LLMs在患者教育中的潜在应用。例如,在门诊环境中,由于医生与患者之间的沟通时间有限,AI生成的摘要和解释可以帮助患者更好地理解关键的健康信息。此外,LLMs还可以用于社区健康项目和远程医疗服务,特别是在缺乏专业医生资源的农村或偏远地区,为患者提供基础的健康教育支持。对于需要长期管理的疾病如骨质疏松症,持续的教育和信息支持尤为重要,而LLMs可以作为这种支持的补充工具,帮助患者了解风险因素、预防措施以及何时需要进一步的医疗评估。
然而,研究也指出了LLMs在医疗教育中的局限性。首先,当前的评估仅采用静态、单次提问的模式,未能模拟真实临床环境中患者与AI之间的互动过程,包括后续问题的提出和信息的逐步澄清。其次,尽管医学准确性由专家团队评估,但研究并未纳入患者的实际反馈,因此无法全面了解这些模型在实际使用中的接受度和影响力。此外,研究中采用的“可接受”评分标准并未经过正式的验证,而是基于已有文献的间接引用,这可能影响评分的可比性。最后,由于AI模型更新迅速,研究中评估的模型可能在短时间内发生性能变化,因此需要持续的监控和定期的再评估。
总体而言,本研究为LLMs在骨质疏松症患者教育中的应用提供了重要的参考依据。尽管ChatGPT-4o在医学准确性和内容全面性方面表现突出,但其他模型如Gemini-2.5 Pro和DeepSeek-R1也具备一定的潜力,尤其是在语言表达和信息来源方面。未来的研究应进一步探索这些模型在真实临床环境中的表现,尤其是在多轮对话、个性化反馈和情感支持等复杂任务中的适用性。同时,还需要加强对LLMs内容生成过程的监督和验证,以确保其在医疗教育中的安全性和可靠性。通过这些努力,LLMs有望成为医疗领域中重要的辅助工具,为患者提供更高效、更便捷的健康信息支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号