ChatGPT 与传统医学资源用于内镜袖状胃成形术（ESG）教育的比较研究：价值与挑战

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月09日 来源：Obesity Surgery 2.9

编辑推荐：

　　为比较 ChatGPT 与医院网站对 ESG 相关问题的回答，研究人员邀请资深胃肠病学家和减肥外科医生开展研究。结果显示，医疗专业人员对 ChatGPT 有用性评分仅 2.75 分（满分 5 分），辨别 AI 回复准确率为 54%。该研究为 AI 在医学教育应用提供参考。

在当今数字化飞速发展的时代，人工智能（AI）技术逐渐渗透到医学教育领域。其中，ChatGPT 作为一款强大的语言模型，备受关注。对于内镜袖状胃成形术（Endoscopic Sleeve Gastroplasty，ESG）这一治疗肥胖症的重要手段，如何获取准确、易懂的学习资料至关重要。然而，传统医学资源在信息更新速度和交互性上存在一定局限，新兴的 ChatGPT 虽能快速提供大量信息，但信息质量参差不齐。在此背景下，为了明确 ChatGPT 与标准医学资源在 ESG 教育中的优劣，来自国外的研究人员 Hineptch Daungsupawong 和 Viroj Wiwanitkit 开展了相关研究，该研究成果发表在《Obesity Surgery》杂志上。

这项研究意义重大。若能明确 ChatGPT 在 ESG 教育中的价值，将为医学教育提供新的思路和资源，推动医学教育模式的创新；若发现其存在不足，也能为后续 AI 技术的改进指明方向，助力开发更符合医学专业需求的工具，提升医疗专业人员的学习效果和患者的治疗体验。

研究人员采用的主要技术方法是邀请专家评估。他们邀请了资深的胃肠病学家和减肥外科医生参与研究，针对 ChatGPT 生成的答案以及从医院网站获取的 ESG 相关问题答案，让专家基于总体满意度、科学准确性和易懂性等因素进行评分。同时，要求专家辨别哪些是 AI 生成的回复。

下面来看具体的研究结果：

专家对 ChatGPT 有用性评分：尽管参与研究的医疗专业人员对 ESG 十分熟悉，但他们对 ChatGPT 有用性的平均评分仅为 2.75 分（满分 5 分），这表明他们对 ChatGPT 的满意度处于中等水平。这说明 ChatGPT 在为医疗专业人员提供 ESG 相关知识时，并没有达到令人满意的程度，可能在某些方面存在不足。
专家辨别 AI 回复的能力：专家辨别 AI 生成回复的敏感性和特异性较低，仅能正确辨别 54% 的 AI 回复，平均正确识别数量为 17.6 个（满分 31 个）。这反映出当前医疗专业人员在区分 AI 生成内容和传统医学资源内容时存在困难，也暗示了 AI 生成内容在形式和风格上可能与传统资源较为相似，难以通过简单判断区分。
AI 与非 AI 回复的比较：在科学准确性、可理解性和愉悦度方面，AI 和非 AI 生成的回复除了在 ESG 定义上 AI 回复得分较高外，其他方面并无明显差异。这说明在 ESG 的多数知识内容呈现上，ChatGPT 与传统医学资源水平相近，没有展现出明显的优势。

研究结论与讨论部分指出，该研究存在一定的局限性。一方面，参与者对 ChatGPT 有用性的满意度不高，且辨别 AI 回复的准确性较差，这表明 AI 生成的回复要达到医疗专业人员的标准，还需要进一步的开发和优化。另一方面，研究的样本量较小，可能限制了研究结果的广泛应用。未来的研究方向可以是开展更大规模、更多样化医疗专业人员参与的研究，以验证当前的研究结果。同时，要不断改进 AI 生成的回复，提高其科学正确性和可理解性。随着 AI 技术在胃肠病学领域的深入研究和发展，有望为患者和医疗专业人员提供更准确、可靠的内镜治疗信息资源，推动医学教育和临床实践的进步。这项研究为 AI 在医学教育领域的应用敲响了警钟，也指明了前进的方向，提醒人们在拥抱新技术的同时，也要理性看待其不足，不断探索改进，以更好地服务于医学事业。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号