ChatGPT与医生在Reddit子宫内膜异位症问答中的盲法专家评估:质量、安全性与临床相关性比较

【字体: 时间:2025年07月03日 来源:International Journal of Medical Informatics 3.7

编辑推荐:

  【编辑推荐】本研究首次针对子宫内膜异位症患者在线咨询需求,通过盲法评估对比ChatGPT(GPT-3.5)与Reddit认证医师的回答质量。结果显示,ChatGPT在医学准确性(3.89±0.89 vs. 3.08±0.92)、清晰度(3.93±0.95 vs. 3.04±0.99)及同理心(3.91±0.93 vs. 2.76±1.09)上显著优于医生,但26.7%的AI回答仍存安全隐患。该研究为AI医疗咨询的规范化应用提供重要依据。

  

子宫内膜异位症(Endometriosis)作为一种困扰全球10%育龄女性的慢性炎症性疾病,其引发的盆腔疼痛、不孕等问题严重影响患者生活质量。由于专科就诊等待时间长,许多患者转向Reddit等在线论坛寻求帮助,但现有研究表明,网络信息常存在专业性不足或理解门槛过高的问题。随着ChatGPT等大语言模型(Large Language Models, LLM)的兴起,患者获得即时、结构化医学建议成为可能,但其可靠性与安全性亟待验证。

为此,研究人员开展了一项开创性研究,通过盲法专家评估对比ChatGPT与Reddit认证医师对30例子宫内膜异位症问题的回答质量。研究采用严格的方法学设计:从Reddit的r/AskDocs板块筛选2020年6月后的真实患者提问,由ChatGPT(GPT-3.5版本)生成匹配长度的回答,与医师原回答共同匿名后,由3名大学附属医院医师通过11项Likert量表(一种标准化评分工具)评估医学准确性、安全性等维度。

主要技术方法

  1. 样本队列构建:从Reddit r/AskDocs板块提取30例经认证医师回答的子宫内膜异位症问题,时间跨度为2020年6月至研究开展时。
  2. AI应答生成:使用ChatGPT(GPT-3.5)以相同问题提示生成回答,控制文本长度与医师回答匹配。
  3. 盲法评估设计:将两类回答随机编号为A/B格式,由评估专家独立评分并猜测来源。

Results

  1. 质量优势显著:ChatGPT在9/10评估维度上显著领先,包括医学连贯性(p<0.001)、清晰度(p<0.001)及同理心表达(p<0.001)。专家认为63.3%的AI回答更具临床相关性。
  2. 安全隐患并存:26.7%的ChatGPT回答被至少1名专家标记为"潜在危险",虽显著低于医师组的60.0%(p=0.019),但仍需警惕。

Discussion
该研究首次证实,在子宫内膜异位症这一专科领域,ChatGPT能提供比在线医生更清晰、更具同理心的建议,且更符合临床指南。这一发现与Ayers等人在广泛医学问题中的研究结论(78.6%的AI优势)形成呼应,但专门针对子宫内膜异位症的研究尚属首次。值得注意的是,AI生成的标准化回答虽规避了论坛回答的随意性,但其基于概率模型(Probabilistic Model)的本质仍可能导致错误,如研究中26.7%的危险回答多源于对复杂病例的过度简化处理。

Conclusion
研究表明,ChatGPT作为子宫内膜异位症患者的辅助信息源具有显著优势,但其潜在风险提示需建立"人类监督+AI生成"的混合咨询模式。未来研究应扩大至GPT-4等进阶模型,并探索不同文化背景下的适用性。该成果为《International Journal of Medical Informatics》在数字健康领域的重要案例,为AI医疗咨询的伦理框架构建提供实证依据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号