人工智能在泌尿健康领域的对决：DeepSeek与ChatGPT对尿失禁相关问题的全面对比分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月24日 来源：Frontiers in Public Health 3.4

编辑推荐：

　　这篇研究首次系统评估了DeepSeek与ChatGPT-4.0在尿失禁（UI）领域的表现，基于AUA/SUFU和EAU指南设计25项问题，从可靠性（mDISCERN）、质量（GQS）、可读性（FRE/SMOG）及临床适用性多维度分析。结果显示两者可靠性相当（P=0.188），但DeepSeek在回答质量（4.76±0.52 vs 4.32±0.69，P=0.001）和可读性（SMOG 12.26 vs 14.21，P<0.001）显著更优，且更注重人文关怀（60% vs 13.33%安慰表达）。研究为AI医疗咨询的优化提供了实证依据。

1 引言
尿失禁（UI）作为全球高发的泌尿系统疾病，严重影响患者生活质量。尽管国际尿控协会（ICS）明确定义其为"非自主性尿液流失"，但患者常因病耻感延误就医。随着人工智能（AI）在医疗咨询中的应用激增，大型语言模型（LLM）如OpenAI的ChatGPT和国产DeepSeek成为患者获取信息的新渠道。然而，这些AI在专科领域如泌尿外科的可靠性尚未明确。本研究首次系统比较两款主流AI在UI领域的表现，为临床AI工具开发提供数据支持。

2 材料与方法
研究团队基于美国泌尿协会（AUA/SUFU）和欧洲泌尿协会（EAU）指南，开发包含25个UI问题的评估体系，涵盖基础概念（10题）和临床场景（15题）。采用双盲设计，由3位10年以上经验的泌尿科专家独立评估DeepSeek-V3/R1和ChatGPT-4.0的回答。评估工具包括：

改良版DISCERN量表（mDISCERN）评估可靠性
全球质量量表（GQS）评估回答质量
Flesch易读度（FRE）和SMOG指数评估可读性
指南依从性分析临床场景回答准确性

3 结果
3.1 核心性能对比
在可靠性方面，两款AI的mDISCERN评分无显著差异（DeepSeek 28.76±1.56 vs ChatGPT 28.24±0.88，P=0.188），但均存在文献引用不足的问题——仅DeepSeek在3个回答中提及指南。质量评估显示DeepSeek显著占优（GQS 4.76±0.52 vs 4.32±0.69），其回答更具体实用，如针对膀胱日记问题额外提供记录模板。

可读性分析呈现有趣发现：尽管DeepSeek回答字数更多（中位数530 vs 374字），但FRE评分更高（76.43±10.90 vs 70.95），SMOG指数更低（12.26±1.39 vs 14.21），相当于高中vs大学阅读水平。DeepSeek-R1独特的"分析推理+正式回答"双段式结构可能提升了理解便利性。

3.2 临床适用性
在15个临床场景中，两款AI均未出现指南冲突，但DeepSeek有73.33%回答完全合规，略低于ChatGPT的86.67%。值得注意的是，DeepSeek在60%回答中加入鼓励性语言（如"你能行！"），显著高于ChatGPT的13.33%（P=0.021）。两者均100%建议用户咨询专业医师。

4 讨论
本研究揭示了AI医疗咨询的现状与挑战：

可靠性平衡：虽临床准确性良好，但文献引用缺失可能影响可信度，建议开发"专业模式"强制引证
可读性优化：DeepSeek的多层次回答结构值得推广，可考虑增加用户身份（患者/医生）自适应功能
人文关怀价值：DeepSeek的情感表达优势提示AI医疗可超越纯技术咨询，整合心理支持功能
需警惕的是，两者均存在提出超指南建议的情况，反映LLM训练数据筛选的重要性。

5 结论
作为首项泌尿专科AI咨询对比研究，证实DeepSeek和ChatGPT-4.0在UI领域具有相当可靠性，但国产DeepSeek在回答质量、可读性和人文关怀方面更胜一筹。建议未来开发聚焦三大方向：引证规范化、分级应答系统、以及情感计算模块的整合，以推动AI医疗助手从"可用"向"好用"进化。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号