人工智能在泌尿健康领域的对决:DeepSeek与ChatGPT对尿失禁相关问题的全面对比分析

【字体: 时间:2025年07月24日 来源:Frontiers in Public Health 3.4

编辑推荐:

  这篇研究首次系统评估了DeepSeek与ChatGPT-4.0在尿失禁(UI)领域的表现,基于AUA/SUFU和EAU指南设计25项问题,从可靠性(mDISCERN)、质量(GQS)、可读性(FRE/SMOG)及临床适用性多维度分析。结果显示两者可靠性相当(P=0.188),但DeepSeek在回答质量(4.76±0.52 vs 4.32±0.69,P=0.001)和可读性(SMOG 12.26 vs 14.21,P<0.001)显著更优,且更注重人文关怀(60% vs 13.33%安慰表达)。研究为AI医疗咨询的优化提供了实证依据。

  

1 引言
尿失禁(UI)作为全球高发的泌尿系统疾病,严重影响患者生活质量。尽管国际尿控协会(ICS)明确定义其为"非自主性尿液流失",但患者常因病耻感延误就医。随着人工智能(AI)在医疗咨询中的应用激增,大型语言模型(LLM)如OpenAI的ChatGPT和国产DeepSeek成为患者获取信息的新渠道。然而,这些AI在专科领域如泌尿外科的可靠性尚未明确。本研究首次系统比较两款主流AI在UI领域的表现,为临床AI工具开发提供数据支持。

2 材料与方法
研究团队基于美国泌尿协会(AUA/SUFU)和欧洲泌尿协会(EAU)指南,开发包含25个UI问题的评估体系,涵盖基础概念(10题)和临床场景(15题)。采用双盲设计,由3位10年以上经验的泌尿科专家独立评估DeepSeek-V3/R1和ChatGPT-4.0的回答。评估工具包括:

  • 改良版DISCERN量表(mDISCERN)评估可靠性
  • 全球质量量表(GQS)评估回答质量
  • Flesch易读度(FRE)和SMOG指数评估可读性
  • 指南依从性分析临床场景回答准确性

3 结果
3.1 核心性能对比
在可靠性方面,两款AI的mDISCERN评分无显著差异(DeepSeek 28.76±1.56 vs ChatGPT 28.24±0.88,P=0.188),但均存在文献引用不足的问题——仅DeepSeek在3个回答中提及指南。质量评估显示DeepSeek显著占优(GQS 4.76±0.52 vs 4.32±0.69),其回答更具体实用,如针对膀胱日记问题额外提供记录模板。

可读性分析呈现有趣发现:尽管DeepSeek回答字数更多(中位数530 vs 374字),但FRE评分更高(76.43±10.90 vs 70.95),SMOG指数更低(12.26±1.39 vs 14.21),相当于高中vs大学阅读水平。DeepSeek-R1独特的"分析推理+正式回答"双段式结构可能提升了理解便利性。

3.2 临床适用性
在15个临床场景中,两款AI均未出现指南冲突,但DeepSeek有73.33%回答完全合规,略低于ChatGPT的86.67%。值得注意的是,DeepSeek在60%回答中加入鼓励性语言(如"你能行!"),显著高于ChatGPT的13.33%(P=0.021)。两者均100%建议用户咨询专业医师。

4 讨论
本研究揭示了AI医疗咨询的现状与挑战:

  1. 可靠性平衡:虽临床准确性良好,但文献引用缺失可能影响可信度,建议开发"专业模式"强制引证
  2. 可读性优化:DeepSeek的多层次回答结构值得推广,可考虑增加用户身份(患者/医生)自适应功能
  3. 人文关怀价值:DeepSeek的情感表达优势提示AI医疗可超越纯技术咨询,整合心理支持功能
    需警惕的是,两者均存在提出超指南建议的情况,反映LLM训练数据筛选的重要性。

5 结论
作为首项泌尿专科AI咨询对比研究,证实DeepSeek和ChatGPT-4.0在UI领域具有相当可靠性,但国产DeepSeek在回答质量、可读性和人文关怀方面更胜一筹。建议未来开发聚焦三大方向:引证规范化、分级应答系统、以及情感计算模块的整合,以推动AI医疗助手从"可用"向"好用"进化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号