ChatGPT 与传统医学资源用于内镜袖状胃成形术(ESG)教育的比较研究:价值与挑战

【字体: 时间:2025年05月09日 来源:Obesity Surgery 2.9

编辑推荐:

  为比较 ChatGPT 与医院网站对 ESG 相关问题的回答,研究人员邀请资深胃肠病学家和减肥外科医生开展研究。结果显示,医疗专业人员对 ChatGPT 有用性评分仅 2.75 分(满分 5 分),辨别 AI 回复准确率为 54%。该研究为 AI 在医学教育应用提供参考。

  
在当今数字化飞速发展的时代,人工智能(AI)技术逐渐渗透到医学教育领域。其中,ChatGPT 作为一款强大的语言模型,备受关注。对于内镜袖状胃成形术(Endoscopic Sleeve Gastroplasty,ESG)这一治疗肥胖症的重要手段,如何获取准确、易懂的学习资料至关重要。然而,传统医学资源在信息更新速度和交互性上存在一定局限,新兴的 ChatGPT 虽能快速提供大量信息,但信息质量参差不齐。在此背景下,为了明确 ChatGPT 与标准医学资源在 ESG 教育中的优劣,来自国外的研究人员 Hineptch Daungsupawong 和 Viroj Wiwanitkit 开展了相关研究,该研究成果发表在《Obesity Surgery》杂志上。

这项研究意义重大。若能明确 ChatGPT 在 ESG 教育中的价值,将为医学教育提供新的思路和资源,推动医学教育模式的创新;若发现其存在不足,也能为后续 AI 技术的改进指明方向,助力开发更符合医学专业需求的工具,提升医疗专业人员的学习效果和患者的治疗体验。

研究人员采用的主要技术方法是邀请专家评估。他们邀请了资深的胃肠病学家和减肥外科医生参与研究,针对 ChatGPT 生成的答案以及从医院网站获取的 ESG 相关问题答案,让专家基于总体满意度、科学准确性和易懂性等因素进行评分。同时,要求专家辨别哪些是 AI 生成的回复。

下面来看具体的研究结果:

  • 专家对 ChatGPT 有用性评分:尽管参与研究的医疗专业人员对 ESG 十分熟悉,但他们对 ChatGPT 有用性的平均评分仅为 2.75 分(满分 5 分),这表明他们对 ChatGPT 的满意度处于中等水平。这说明 ChatGPT 在为医疗专业人员提供 ESG 相关知识时,并没有达到令人满意的程度,可能在某些方面存在不足。
  • 专家辨别 AI 回复的能力:专家辨别 AI 生成回复的敏感性和特异性较低,仅能正确辨别 54% 的 AI 回复,平均正确识别数量为 17.6 个(满分 31 个)。这反映出当前医疗专业人员在区分 AI 生成内容和传统医学资源内容时存在困难,也暗示了 AI 生成内容在形式和风格上可能与传统资源较为相似,难以通过简单判断区分。
  • AI 与非 AI 回复的比较:在科学准确性、可理解性和愉悦度方面,AI 和非 AI 生成的回复除了在 ESG 定义上 AI 回复得分较高外,其他方面并无明显差异。这说明在 ESG 的多数知识内容呈现上,ChatGPT 与传统医学资源水平相近,没有展现出明显的优势。

研究结论与讨论部分指出,该研究存在一定的局限性。一方面,参与者对 ChatGPT 有用性的满意度不高,且辨别 AI 回复的准确性较差,这表明 AI 生成的回复要达到医疗专业人员的标准,还需要进一步的开发和优化。另一方面,研究的样本量较小,可能限制了研究结果的广泛应用。未来的研究方向可以是开展更大规模、更多样化医疗专业人员参与的研究,以验证当前的研究结果。同时,要不断改进 AI 生成的回复,提高其科学正确性和可理解性。随着 AI 技术在胃肠病学领域的深入研究和发展,有望为患者和医疗专业人员提供更准确、可靠的内镜治疗信息资源,推动医学教育和临床实践的进步。这项研究为 AI 在医学教育领域的应用敲响了警钟,也指明了前进的方向,提醒人们在拥抱新技术的同时,也要理性看待其不足,不断探索改进,以更好地服务于医学事业。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号