
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成式AI在生育医学咨询中的可靠性评估:专家与ChatGPT、Gemini的临床应答比较
【字体: 大 中 小 】 时间:2025年09月01日 来源:Reproductive BioMedicine Online 3.5
编辑推荐:
本研究针对生成式AI在生育医学咨询中的可靠性问题,由国际生育专家团队设计12项临床难题,对比ChatGPT 4.0、Gemini 2.0与资深医师的应答质量。结果显示医师组评分显著高于AI(中位数9.0 vs 7.0/4.5),仅47.9%的AI回答达到临床认可阈值(≥8分),证实当前AI尚不能替代专家判断,为生殖医学领域AI应用划定边界。
在ChatGPT通过美国医师执照考试(USMLE)的背景下,AI医疗咨询呈现爆发式增长。生育医学领域尤为特殊——患者常面临胚胎选择、激素方案等需要高度个体化决策的难题。然而,AI生成的"看似专业"的答复是否经得起临床考验?以色列Wolfson医学中心团队在《Reproductive BioMedicine Online》发表的研究给出了警示性答案。
研究采用"盲测擂台"设计:12个真实临床场景(如38岁女性是否需DHEA补充、子宫内膜异位症患者手术时机等)分别由2位H指数≥15的生育专家、ChatGPT 4.0和Gemini 2.0作答,8位国际权威专家盲法评分。技术关键点包括:1) 严格限制75词回复长度确保可比性;2) 采用Wilcoxon检验和Friedman分析非参数数据;3) 设定≥8分为临床认可阈值。
结果部分显示:
专家优势显著:Doctor A中位数得分9.0(70.8%≥8分),显著高于ChatGPT的7.0(47.9%)和Gemini的4.5(35.4%)。仅在1/12问题中ChatGPT超越1位专家(p=0.01)。
典型差距案例:对于"精子异常是否用抗氧化剂"问题,专家组得分9.5 vs ChatGPT 7.0;"子宫内膜搔刮术"建议中,专家9.0分而AI仅2.0-3.0分。
模型差异明显:ChatGPT在7/12问题中显著优于Gemini(p<0.001),如"冻胚移植孕酮监测"得分7.5 vs 2.5。
讨论指出AI存在四大局限:训练数据不透明(可能含过时文献)、存在事实性"幻觉"(如虚构参考文献)、缺乏实时指南更新、无法真正理解临床情境。尽管ChatGPT表现优于Gemini,但其47.9%的高分率仍远低于专家水平。该研究为临床实践划出清晰红线:在涉及胚胎选择、内分泌调控等复杂决策时,AI仅可作为辅助工具。随着欧盟《AI法案》将医疗AI列为高风险领域,这项研究为监管提供了关键循证依据——尤其在生育治疗这类容错率极低的领域,AI的临床应用仍需严格验证。
生物通微信公众号
知名企业招聘