
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在结膜炎研究中的应用:基于幻觉率分析的ChatGPT与DeepSeek病因诊断、干预策略及文献可信度评估
【字体: 大 中 小 】 时间:2025年08月21日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
本文系统评估了ChatGPT 4.0与DeepSeek在结膜炎诊疗中的性能差异,通过幻觉率分析(7% vs 13%)揭示模型可靠性,结合轮廓计数(contour count)和平均强度(mean intensity)特征实现眼部图像分类(Claude准确率达100%)。研究创新性提出混合提示工程(prompt engineering)方法,为AI辅助眼科诊断(如细菌性/病毒性结膜炎鉴别)提供临床转化新思路。
结膜炎作为全球性公共卫生问题,近年因抗生素滥用(如荷兰年耗1090万美元)和巴基斯坦8.6万例爆发疫情引发关注。传统诊疗面临细菌耐药性(Karpecki et al., 2010)和病毒/细菌分型困难(误诊率>80%)等挑战,促使研究者探索大型语言模型(LLM)如ChatGPT 4.0与DeepSeek的临床应用潜力。
采用混合提示工程(zero-shot与few-shot结合)评估模型性能:
核心指标:
幻觉率=虚假文献数/总文献数×100(公式1)
图像特征:轮廓计数(健康眼5-11 vs 结膜炎眼>98)和平均强度(反映血管充血程度)
模型对比:
ChatGPT 4.0:通用医疗知识库
DeepSeek:专注精准医学应答
Claude 3.5:基于Transformer架构的专科优化
信息准确性:
DeepSeek在结膜炎病因学问答中展现7%幻觉率,显著优于ChatGPT(13%),如推荐抗组胺药治疗过敏性结膜炎时未遗漏 hygiene 依赖 clean water 的关联性。
文献生成测试:DeepSeek输出30篇真实文献(含重复标题),ChatGPT 15篇中存作者/刊号错误。
图像诊断:
Claude实现100%分类准确率(F1-score=1),完美区分健康眼(轮廓5-11)与结膜炎亚型(重度/中度)。
ChatGPT准确率仅62.5%,将50%病例误判(图6混淆矩阵)。
分型诊断:
病毒性:支持性护理(冷敷)
细菌性:氟喹诺酮类抗生素
过敏性:奥洛他定滴眼液
公共卫生:模型可整合流行病学数据(如Hashmi et al.儿童易感性研究)指导资源分配。
当前样本量16例(总库359例)虽符FDA AI验证标准,但需多中心数据验证。未来可优化:
提示工程降低Claude对轮廓计数的阈值敏感度
结合OCT图像提升DeepSeek视觉能力
扩展Scopus/WoS数据库验证幻觉率
LLM在结膜炎管理呈现差异化优势:DeepSeek适于精准咨询,Claude擅长沙眼分级,ChatGPT适合公众科普。通过特征工程(如mean intensity量化)与严格幻觉控制,AI有望成为眼科医生的"数字听诊器"。
生物通微信公众号
知名企业招聘