生成式AI在生育医学咨询中的可靠性评估：专家与ChatGPT、Gemini的临床应答比较

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月01日 来源：Reproductive BioMedicine Online 3.5

编辑推荐：

　　本研究针对生成式AI在生育医学咨询中的可靠性问题，由国际生育专家团队设计12项临床难题，对比ChatGPT 4.0、Gemini 2.0与资深医师的应答质量。结果显示医师组评分显著高于AI（中位数9.0 vs 7.0/4.5），仅47.9%的AI回答达到临床认可阈值（≥8分），证实当前AI尚不能替代专家判断，为生殖医学领域AI应用划定边界。

在ChatGPT通过美国医师执照考试(USMLE)的背景下，AI医疗咨询呈现爆发式增长。生育医学领域尤为特殊——患者常面临胚胎选择、激素方案等需要高度个体化决策的难题。然而，AI生成的"看似专业"的答复是否经得起临床考验？以色列Wolfson医学中心团队在《Reproductive BioMedicine Online》发表的研究给出了警示性答案。

研究采用"盲测擂台"设计：12个真实临床场景（如38岁女性是否需DHEA补充、子宫内膜异位症患者手术时机等）分别由2位H指数≥15的生育专家、ChatGPT 4.0和Gemini 2.0作答，8位国际权威专家盲法评分。技术关键点包括：1) 严格限制75词回复长度确保可比性；2) 采用Wilcoxon检验和Friedman分析非参数数据；3) 设定≥8分为临床认可阈值。

结果部分显示：

1.
专家优势显著：Doctor A中位数得分9.0（70.8%≥8分），显著高于ChatGPT的7.0（47.9%）和Gemini的4.5（35.4%）。仅在1/12问题中ChatGPT超越1位专家（p=0.01）。
2.
典型差距案例：对于"精子异常是否用抗氧化剂"问题，专家组得分9.5 vs ChatGPT 7.0；"子宫内膜搔刮术"建议中，专家9.0分而AI仅2.0-3.0分。
3.
模型差异明显：ChatGPT在7/12问题中显著优于Gemini（p<0.001），如"冻胚移植孕酮监测"得分7.5 vs 2.5。

讨论指出AI存在四大局限：训练数据不透明（可能含过时文献）、存在事实性"幻觉"（如虚构参考文献）、缺乏实时指南更新、无法真正理解临床情境。尽管ChatGPT表现优于Gemini，但其47.9%的高分率仍远低于专家水平。该研究为临床实践划出清晰红线：在涉及胚胎选择、内分泌调控等复杂决策时，AI仅可作为辅助工具。随着欧盟《AI法案》将医疗AI列为高风险领域，这项研究为监管提供了关键循证依据——尤其在生育治疗这类容错率极低的领域，AI的临床应用仍需严格验证。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号