人工智能在骨科患者教育中的应用:评估ChatGPT生成的全髋关节置换术后出院指导材料的可读性与质量
《BMC Medical Education》:Revolutionizing patient care: assessing ai-created discharge education for total hip replacement patients
【字体:
大
中
小
】
时间:2025年11月25日
来源:BMC Medical Education 3.2
编辑推荐:
本研究针对全髋关节置换(THR)患者出院教育材料匮乏的问题,开发了基于ChatGPT 4.0的人工智能生成土耳其语教育材料。通过专家评估发现,该材料在可理解性(PEMAT-P评分80.60±9.74)和可操作性(77.4±19.10)方面表现良好,土耳其语可读性指数(Atesman指数)为69.5,属于"易于理解"水平。研究为AI在非英语医疗教育中的应用提供了重要参考,展示了其在提高患者教育可及性方面的潜力。
在全球人口老龄化加剧的背景下,骨关节炎等退行性关节疾病的发病率持续攀升,全髋关节置换术(THR)作为治疗终末期髋关节疾病的有效手段,其手术量呈现逐年增长趋势。根据经济合作与发展组织(OECD)2023年的健康统计数据,瑞典、德国和奥地利等国的THR手术率高达每10万人280-320例,而土耳其的手术率相对较低,为每10万人64例。尽管THR手术成功率较高,但术后疼痛、活动受限、恢复期长以及约7%的患者对手术效果不满意等问题,凸显了高质量患者教育的迫切需求。
传统的患者教育材料往往存在可读性不足、专业性过强等问题,难以满足不同文化背景和健康素养水平患者的需求。特别是在非英语国家,缺乏本土化、易理解的医疗教育材料成为提升医疗服务质量的重要障碍。随着人工智能技术的快速发展,ChatGPT等大型语言模型为医疗教育材料的生成提供了新的解决方案,但其在非英语医疗语境下的适用性和有效性仍需深入评估。
在这项发表于《BMC Medical Education》的研究中,Handan Topan等人开展了一项创新性研究,旨在评估ChatGPT 4.0生成的土耳其语全髋关节置换术后出院教育材料的质量和实用性。研究人员采用方法学研究和横断面设计,于2025年2月至3月期间,通过系统回顾全髋关节置换术后护理文献,确定了七个关键证据来源,包括系统评价、荟萃分析和基于证据的术后护理方案。
研究团队首先通过咨询骨科专家、骨科病房护士和学术护士,结合文献回顾确定了THR患者的教育需求。随后,他们向ChatGPT 4.0输入了六个精心设计的指令,生成涵盖术后恢复过程、疼痛管理、活动与运动、注意事项和潜在并发症等主题的教育内容。生成的材料最终形成了一本16页、2207字的出院指导手册。
为确保内容的准确性和安全性,研究团队实施了多步骤验证流程。所有由ChatGPT生成的教育材料都经过研究团队审核,并由资深骨科护士和骨科医生独立交叉核对,确保与当前临床指南和循证护理标准一致。任何缺乏证据支持或可能误导的信息都在最终材料中进行了修订或删除。
研究采用多种可读性评估工具,包括专门针对土耳其语的Atesman指数,以及国际通用的自动可读性指数(ARI)、简单测量戈博雷格克(SMOG)、Flesch-Kincaid年级水平(FKGL)和Flesch阅读易度性(FRE)等公式。材料质量由10名拥有外科学护理博士学位且从事骨科研究的专家,使用患者教育材料评估工具(PEMAT-P)和全球质量量表(GQS)进行评估。统计分析采用SPSS 25.0进行,使用组内相关系数(ICC)评估专家间信度,Cronbach's alpha评估内部一致性。
土耳其语可读性指数(Atesman指数)评估显示,开发的THR出院教育材料得分为69.5,属于"易于理解"水平。然而,国际通用评估工具的结果表明材料阅读难度较高:自动可读性指数(ARI)为9.30(稍有难度),简单测量戈博雷格克(SMOG)为7.90(平均-稍有难度),Flesch-Kincaid年级水平(FKGL)为8.09(平均-稍有难度),Flesch阅读易度性(FRE)为60.0(相当困难),平均阅读水平共识(ARLC)为10.00(有些困难)。这种差异凸显了土耳其语与英语语言结构差异对可读性评估的影响。
专家评估的内部一致性系数为0.84(95% CI[0.271-0.927],p<0.05),表明专家间存在较强的一致性,尽管置信区间较宽可能反映了评估者间的变异性。
在PEMAT的大多数项目(15项)中,90%及以上的专家表示同意。PEMAT可理解性得分平均为80.60±9.74(范围64-100),可操作性得分平均为77.4±19.10(范围40-100)。评估THR出院教育材料内容适当性和质量的全球质量量表(GQS)得分平均为4.20±0.79(范围3-5),表明专家认为材料质量较高。
尽管研究中包含了DALL-E生成的视觉材料,但专家评估显示视觉辅助是材料中最薄弱的环节。视觉元素的清晰度、相关性和信息性标题存在不足,70%的专家认为视觉材料没有有效强化内容,这提示AI生成的通用图像在专业医疗教育中的局限性。
本研究系统评估了AI生成土耳其语全髋关节置换术后出院教育材料的可读性、可理解性和可操作性。研究结果表明,通过精心设计的提示词和专家验证流程,ChatGPT 4.0能够生成内容准确、质量较高的患者教育材料。然而,国际可读性指标与土耳其语特定指标之间的差异,强调了在非英语语境中开发医疗教育材料时需要考虑语言特殊性。
与先前研究一致,本研究发现AI生成材料的主要优势在于其能够快速产生大量定制化内容,但需要专业人员的监督和修订以确保准确性。特别是视觉辅助材料的不足表明,纯AI生成的内容在专业医疗教育中可能仍需与人工设计相结合。
研究的创新点在于首次针对土耳其语THR出院教育材料进行了系统评估,填补了非英语AI医疗教育研究的空白。高PEMAT评分和GQS评分表明,AI有潜力成为医疗专业人员开发患者教育材料的有力工具,特别是在资源有限的环境中。
然而,研究也存在一定局限性:材料长度可能影响专家评估效率;视觉材料数量有限且质量有待提升;缺乏患者端实际使用效果的验证。未来的研究应当纳入患者反馈,进行真实环境下的可用性测试,并探索多模态AI生成内容(如结合文本、图像、视频)在患者教育中的综合应用。
这项研究为AI在医疗教育中的应用提供了重要实证依据,展示了技术在提高患者教育可及性方面的潜力,同时也强调了专业监督和文化语言适配在AI医疗应用中的必要性。随着AI技术的不断发展,其在促进健康公平和提升医疗服务质量方面将发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号