大型语言模型在结膜炎研究中的应用:基于幻觉率分析的ChatGPT与DeepSeek病因诊断、干预策略及文献可信度评估

【字体: 时间:2025年08月21日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  本文系统评估了ChatGPT 4.0与DeepSeek在结膜炎诊疗中的性能差异,通过幻觉率分析(7% vs 13%)揭示模型可靠性,结合轮廓计数(contour count)和平均强度(mean intensity)特征实现眼部图像分类(Claude准确率达100%)。研究创新性提出混合提示工程(prompt engineering)方法,为AI辅助眼科诊断(如细菌性/病毒性结膜炎鉴别)提供临床转化新思路。

  

引言

结膜炎作为全球性公共卫生问题,近年因抗生素滥用(如荷兰年耗1090万美元)和巴基斯坦8.6万例爆发疫情引发关注。传统诊疗面临细菌耐药性(Karpecki et al., 2010)和病毒/细菌分型困难(误诊率>80%)等挑战,促使研究者探索大型语言模型(LLM)如ChatGPT 4.0与DeepSeek的临床应用潜力。

研究方法

采用混合提示工程(zero-shot与few-shot结合)评估模型性能:

  1. 1.

    核心指标

    • 幻觉率=虚假文献数/总文献数×100(公式1)

    • 图像特征:轮廓计数(健康眼5-11 vs 结膜炎眼>98)和平均强度(反映血管充血程度)

  2. 2.

    模型对比

    • ChatGPT 4.0:通用医疗知识库

    • DeepSeek:专注精准医学应答

    • Claude 3.5:基于Transformer架构的专科优化

关键发现

信息准确性

  • DeepSeek在结膜炎病因学问答中展现7%幻觉率,显著优于ChatGPT(13%),如推荐抗组胺药治疗过敏性结膜炎时未遗漏 hygiene 依赖 clean water 的关联性。

  • 文献生成测试:DeepSeek输出30篇真实文献(含重复标题),ChatGPT 15篇中存作者/刊号错误。

图像诊断

  • Claude实现100%分类准确率(F1-score=1),完美区分健康眼(轮廓5-11)与结膜炎亚型(重度/中度)。

  • ChatGPT准确率仅62.5%,将50%病例误判(图6混淆矩阵)。

临床价值

  1. 1.

    分型诊断

    • 病毒性:支持性护理(冷敷)

    • 细菌性:氟喹诺酮类抗生素

    • 过敏性:奥洛他定滴眼液

  2. 2.

    公共卫生:模型可整合流行病学数据(如Hashmi et al.儿童易感性研究)指导资源分配。

局限与展望

当前样本量16例(总库359例)虽符FDA AI验证标准,但需多中心数据验证。未来可优化:

  • 提示工程降低Claude对轮廓计数的阈值敏感度

  • 结合OCT图像提升DeepSeek视觉能力

  • 扩展Scopus/WoS数据库验证幻觉率

结论

LLM在结膜炎管理呈现差异化优势:DeepSeek适于精准咨询,Claude擅长沙眼分级,ChatGPT适合公众科普。通过特征工程(如mean intensity量化)与严格幻觉控制,AI有望成为眼科医生的"数字听诊器"。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号