ChatGPT与医生在Reddit子宫内膜异位症问答中的盲法专家评估：质量、安全性与临床相关性比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月03日 来源：International Journal of Medical Informatics 3.7

编辑推荐：

　　【编辑推荐】本研究首次针对子宫内膜异位症患者在线咨询需求，通过盲法评估对比ChatGPT（GPT-3.5）与Reddit认证医师的回答质量。结果显示，ChatGPT在医学准确性（3.89±0.89 vs. 3.08±0.92）、清晰度（3.93±0.95 vs. 3.04±0.99）及同理心（3.91±0.93 vs. 2.76±1.09）上显著优于医生，但26.7%的AI回答仍存安全隐患。该研究为AI医疗咨询的规范化应用提供重要依据。

子宫内膜异位症（Endometriosis）作为一种困扰全球10%育龄女性的慢性炎症性疾病，其引发的盆腔疼痛、不孕等问题严重影响患者生活质量。由于专科就诊等待时间长，许多患者转向Reddit等在线论坛寻求帮助，但现有研究表明，网络信息常存在专业性不足或理解门槛过高的问题。随着ChatGPT等大语言模型（Large Language Models, LLM）的兴起，患者获得即时、结构化医学建议成为可能，但其可靠性与安全性亟待验证。

为此，研究人员开展了一项开创性研究，通过盲法专家评估对比ChatGPT与Reddit认证医师对30例子宫内膜异位症问题的回答质量。研究采用严格的方法学设计：从Reddit的r/AskDocs板块筛选2020年6月后的真实患者提问，由ChatGPT（GPT-3.5版本）生成匹配长度的回答，与医师原回答共同匿名后，由3名大学附属医院医师通过11项Likert量表（一种标准化评分工具）评估医学准确性、安全性等维度。

主要技术方法

样本队列构建：从Reddit r/AskDocs板块提取30例经认证医师回答的子宫内膜异位症问题，时间跨度为2020年6月至研究开展时。
AI应答生成：使用ChatGPT（GPT-3.5）以相同问题提示生成回答，控制文本长度与医师回答匹配。
盲法评估设计：将两类回答随机编号为A/B格式，由评估专家独立评分并猜测来源。

Results

质量优势显著：ChatGPT在9/10评估维度上显著领先，包括医学连贯性（p<0.001）、清晰度（p<0.001）及同理心表达（p<0.001）。专家认为63.3%的AI回答更具临床相关性。
安全隐患并存：26.7%的ChatGPT回答被至少1名专家标记为"潜在危险"，虽显著低于医师组的60.0%（p=0.019），但仍需警惕。

Discussion
该研究首次证实，在子宫内膜异位症这一专科领域，ChatGPT能提供比在线医生更清晰、更具同理心的建议，且更符合临床指南。这一发现与Ayers等人在广泛医学问题中的研究结论（78.6%的AI优势）形成呼应，但专门针对子宫内膜异位症的研究尚属首次。值得注意的是，AI生成的标准化回答虽规避了论坛回答的随意性，但其基于概率模型（Probabilistic Model）的本质仍可能导致错误，如研究中26.7%的危险回答多源于对复杂病例的过度简化处理。

Conclusion
研究表明，ChatGPT作为子宫内膜异位症患者的辅助信息源具有显著优势，但其潜在风险提示需建立"人类监督+AI生成"的混合咨询模式。未来研究应扩大至GPT-4等进阶模型，并探索不同文化背景下的适用性。该成果为《International Journal of Medical Informatics》在数字健康领域的重要案例，为AI医疗咨询的伦理框架构建提供实证依据。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号