人工智能在患者教育中的应用:对人工智能生成的脊柱融合手术相关患者教育材料的质量和可读性的比较分析

《European Spine Journal》:AI in patient education: a comparative analysis of the quality and readability of AI generated patient education material on spinal fusion

【字体: 时间:2025年11月11日 来源:European Spine Journal 2.7

编辑推荐:

  人工智能生成的脊柱融合手术患者教育材料在易读性和质量上均逊于专业机构发布的版本,但Co-Pilot表现最佳。研究采用PEMAT、DISCERN等工具评估发现,机构来源材料PEMAT得分77.1%显著高于AI的57.6%(P<0.001),DISCERN评分59.67±9.69也比AI的49±4.88高(P=0.006)。易读性指标显示AI内容存在更高的年级水平和认知难度。后续提示虽能提升AI内容质量,但未达统计显著水平(P=0.024)。

  

摘要

目的

生成式人工智能(AI)模型被越来越多地用于创建患者教育材料(PEM),提供按需的健康信息。这些工具有可能实现医疗信息的普及,但人们对AI生成的患者教育材料的质量、可读性和可靠性仍存在担忧。脊柱融合手术是一种复杂的手术,需要清晰、准确的教育材料来支持患者的知情决策。尽管AI模型具有很大潜力,但其满足健康素养需求的能力仍有待进一步探索。本研究旨在评估和比较来自机构和社会网站的脊柱融合手术相关患者教育材料与由三种AI模型(ChatGPT、Gemini和Co-Pilot)生成的患者教育材料在可读性和质量方面的差异。

方法

关于脊柱融合手术的患者信息来源于英国脊柱外科医生协会(BASS)、美国骨科医师学会(AAOS)、克利夫兰诊所、梅奥诊所和约翰霍普金斯大学的网站,并于2024年12月15日使用标准提示由AI模型(ChatGPT、Co-Pilot和Gemini)生成。采用患者教育材料评估工具(PEMAT)、JAMA基准标准和DISCERN工具来评估材料的质量。可读性通过Flesch-Kincaid分级(FKGL)、阅读难度指数(FKRE)和Gunning Fog指数(GFI)进行评估。比较了AI生成的患者教育材料与来自机构或社会网站的患者教育材料的平均质量和可读性结果。经过Bonferroni校正后,质量评估的统计显著性阈值设为P < 0.0125,可读性评估的统计显著性阈值设为P < 0.0167。

结果

来自机构和社会网站的患者教育材料在可读性和质量方面优于AI生成的内容。网站来源的材料在PEMAT评分上显著更高(77.1% ± 9.8%,而AI生成的材料为57.6% ± 6.3%;P < 0.001),DISCERN评分也更高(59.667 ± 9.686 vs 49 ± 4.884;P = 0.006)。网站来源的材料具有更低的FKGL和GFI评分以及更高的FKRE评分,表现出更好的可读性。AI生成的患者教育材料质量因模型而异,其中Co-Pilot在PEMAT评分(62.2% ± 3.3%)和DISCERN评分(50.8 ± 4.087)上表现最佳。后续提示措施在一定程度上提高了AI生成内容的质量,但这一改进未达到统计学显著性(P = 0.024)。

结论

与AI生成的内容相比,来自专业网站的患者教育材料在可读性和可靠性方面更具优势。AI模型生成的患者教育材料质量参差不齐。这些发现凸显了进一步改进AI工具的必要性,以确保患者能够获得可靠且易于获取的健康信息。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号