大型语言模型在结核病医疗问答中的性能评估:ChatGPT、Gemini与Copilot的比较研究

【字体: 时间:2025年05月24日 来源:Scientific Reports 3.8

编辑推荐:

  本研究针对大型语言模型(LLMs)在结核病(TB)医疗信息提供中的可靠性问题,系统评估了ChatGPT、Gemini和Copilot在诊断、治疗、预防控制及疾病管理四大领域的表现。通过DISCERN-AI和NLAT-AI工具量化分析发现,ChatGPT综合表现最优(均分4/5),Gemini在预防控制领域突出(4.4/5),而Copilot在疾病管理中较弱(3.6/5)。研究揭示了LLMs在医疗信息透明度(如文献引用、时效标注)方面的共性缺陷,为AI辅助结核病诊疗的优化提供了实证依据。

  

结核病作为全球重大传染病,每年导致数百万人感染,其早期诊断和精准治疗对公共卫生至关重要。然而医疗资源分布不均、专业医师短缺等问题,促使人工智能辅助工具成为潜在解决方案。大型语言模型(LLMs)如ChatGPT在医疗领域的应用虽展现出前景,但其在专科疾病如结核病中的可靠性尚未明确。伊朗Gonabad医科大学的研究团队针对这一空白,首次系统评估了主流LLMs(ChatGPT、Gemini、Copilot)在结核病相关医疗问答中的性能差异,论文发表于《Scientific Reports》。

研究采用标准化评估框架,通过传染病专家设计的23个问题(涵盖诊断、治疗、预防控制、疾病管理及儿童结核病亚组),基于Mesko提示工程指南向三大模型提问。采用医学信息质量评估工具DISCERN-AI(7项指标)和NLAT-AI(5维度Likert量表)进行双盲评分,由独立传染病专家完成评估。

诊断领域
三大模型在诊断准确性、安全性指标上均获4/5分,展现等效性能。但Gemini在回答适当性(3/5)和有效性(3/5)上稍逊,例如对儿童结核病不典型症状的识别存在模糊表述。

治疗领域
ChatGPT以5/5的准确率领先,尤其在耐药结核病治疗方案描述中完整覆盖WHO指南要点。Copilot和Gemini分别因药物相互作用说明不充分(4/5)和疗程建议模糊(3/5)而失分。

预防控制
Gemini以安全性和可操作性双5/5成为最优选择,其BCG疫苗接种建议包含地域特异性变异株信息。Copilot得分最低(3.6/5),在隔离措施时效性描述中出现矛盾。

疾病管理
ChatGPT与Gemini均获4/5,但Copilot因随访监测方案缺失关键指标(如痰涂片频率)在准确性(3/5)和有效性(3/5)上落后。DISCERN-AI评估显示,所有模型均未标注信息生成日期,且仅Copilot/Gemini部分提供文献来源(如UpToDate摘要),但未完整引用DOI或PMID。

该研究证实LLMs在结核病信息供给中具有差异化优势:ChatGPT适合诊断治疗咨询,Gemini长于预防策略,而Copilot需优化疾病管理模块。共性缺陷在于透明度不足——仅21%回答标注不确定性,且无模型实现实时数据更新。这种局限性在耐药结核病等快速演进领域可能引发临床风险。

讨论部分强调,LLMs作为医疗辅助工具需建立"可信AI"标准:整合权威数据库(如WHO TB指南)、开发时效性标签系统、增加置信度提示功能。值得注意的是,模型在平衡性指标上均获满分,说明其能规避商业偏见,这为后续医疗AI伦理框架构建提供了基线数据。研究建议临床机构采用混合策略,将ChatGPT用于医患教育,Gemini嵌入公共卫生宣传,同时强制AI输出需经专业审核。这些发现不仅适用于结核病,也为AI在HIV、疟疾等传染病中的应用提供了方法论参考。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号