
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能在泌尿健康领域的对决:DeepSeek与ChatGPT对尿失禁相关问题的全面对比分析
【字体: 大 中 小 】 时间:2025年07月24日 来源:Frontiers in Public Health 3.4
编辑推荐:
这篇研究首次系统评估了DeepSeek与ChatGPT-4.0在尿失禁(UI)领域的表现,基于AUA/SUFU和EAU指南设计25项问题,从可靠性(mDISCERN)、质量(GQS)、可读性(FRE/SMOG)及临床适用性多维度分析。结果显示两者可靠性相当(P=0.188),但DeepSeek在回答质量(4.76±0.52 vs 4.32±0.69,P=0.001)和可读性(SMOG 12.26 vs 14.21,P<0.001)显著更优,且更注重人文关怀(60% vs 13.33%安慰表达)。研究为AI医疗咨询的优化提供了实证依据。
1 引言
尿失禁(UI)作为全球高发的泌尿系统疾病,严重影响患者生活质量。尽管国际尿控协会(ICS)明确定义其为"非自主性尿液流失",但患者常因病耻感延误就医。随着人工智能(AI)在医疗咨询中的应用激增,大型语言模型(LLM)如OpenAI的ChatGPT和国产DeepSeek成为患者获取信息的新渠道。然而,这些AI在专科领域如泌尿外科的可靠性尚未明确。本研究首次系统比较两款主流AI在UI领域的表现,为临床AI工具开发提供数据支持。
2 材料与方法
研究团队基于美国泌尿协会(AUA/SUFU)和欧洲泌尿协会(EAU)指南,开发包含25个UI问题的评估体系,涵盖基础概念(10题)和临床场景(15题)。采用双盲设计,由3位10年以上经验的泌尿科专家独立评估DeepSeek-V3/R1和ChatGPT-4.0的回答。评估工具包括:
3 结果
3.1 核心性能对比
在可靠性方面,两款AI的mDISCERN评分无显著差异(DeepSeek 28.76±1.56 vs ChatGPT 28.24±0.88,P=0.188),但均存在文献引用不足的问题——仅DeepSeek在3个回答中提及指南。质量评估显示DeepSeek显著占优(GQS 4.76±0.52 vs 4.32±0.69),其回答更具体实用,如针对膀胱日记问题额外提供记录模板。
可读性分析呈现有趣发现:尽管DeepSeek回答字数更多(中位数530 vs 374字),但FRE评分更高(76.43±10.90 vs 70.95),SMOG指数更低(12.26±1.39 vs 14.21),相当于高中vs大学阅读水平。DeepSeek-R1独特的"分析推理+正式回答"双段式结构可能提升了理解便利性。
3.2 临床适用性
在15个临床场景中,两款AI均未出现指南冲突,但DeepSeek有73.33%回答完全合规,略低于ChatGPT的86.67%。值得注意的是,DeepSeek在60%回答中加入鼓励性语言(如"你能行!"),显著高于ChatGPT的13.33%(P=0.021)。两者均100%建议用户咨询专业医师。
4 讨论
本研究揭示了AI医疗咨询的现状与挑战:
5 结论
作为首项泌尿专科AI咨询对比研究,证实DeepSeek和ChatGPT-4.0在UI领域具有相当可靠性,但国产DeepSeek在回答质量、可读性和人文关怀方面更胜一筹。建议未来开发聚焦三大方向:引证规范化、分级应答系统、以及情感计算模块的整合,以推动AI医疗助手从"可用"向"好用"进化。
生物通微信公众号
知名企业招聘