比较ChatGPT、DeepSeek和Gemini在系统评价和综合性评价任务中的表现随时间的变化情况
《The Journal of the American Dental Association》:Comparing the performance of ChatGPT, DeepSeek, and Gemini in systematic and umbrella review tasks over time
【字体:
大
中
小
】
时间:2025年10月18日
来源:The Journal of the American Dental Association 3.1
编辑推荐:
本研究对比了ChatGPT-4o、DeepSeek-V3和Gemini 1.5 Pro在系统综述和伞形综述中的全文筛选、数据提取及偏倚风险评估任务表现。结果显示DeepSeek数据提取准确率最高(>90%),Gemini第三周数据提取显著优于首周,但三者均无法可靠完成全文筛选和偏倚评估,建议LLM作为辅助工具使用。
Maryam Emami | Mohammadjavad Shirani
摘要
背景
本研究旨在比较ChatGPT-4o(OpenAI)、DeepSeek-V3(High-Flyer)和Gemini 1.5 Pro(Google)在连续三周内执行全文筛查、数据提取和偏见风险评估任务时的表现,这些任务适用于系统评价和伞形评价。
方法
本研究通过让3个独立账户执行评价研究任务来评估大型语言模型(LLM)的响应准确性。这一过程在连续三周内对40项主要研究进行了重复。响应的准确性进行了评分,并通过Kendall W检验、广义估计方程以及Bonferroni校正后的成对比较和Mann-Whitney U检验(α = 0.05)对数据进行了分析。
结果
DeepSeek的数据提取准确率最高(>90%),其次是ChatGPT(>88%)。此外,在大多数成对比较中,DeepSeek在数据提取方面的表现显著优于Gemini(P < 0.0167)。Gemini的数据提取性能随时间有所提升,第三周的准确率明显高于第一周(P < 0.0167)。ChatGPT在系统评价中的表现通常优于伞形评价(P < 0.05)。
结论
所研究的LLM在数据提取方面显示出潜力,尤其是DeepSeek,但在全文筛查和偏见风险评估等关键任务中表现不稳定。LLM在评价研究中的应用需要专家的谨慎监督。
实际意义
计划使用LLM进行评价研究的研究人员应意识到,LLM在全文筛查和偏见风险评估方面的响应并不可靠。对于系统评价和伞形评价,DeepSeek是数据提取的首选LLM,而ChatGPT则更适合用于系统评价。
部分内容摘录
方法
我们的纵向重复测量实验研究了3种LLM(ChatGPT-4o、DeepSeek-V3和Gemini 1.5 Pro)在三项关键任务中的表现:全文筛查、证据表的数据提取和偏见风险评估。这些任务在连续三周内进行了评估,并在系统评价和伞形评价之间进行了比较,研究对象均为牙科植入物。
为消除LLM因事先接触研究数据而可能产生的偏见,我们使用了2篇在研究期间尚未发表的评论。
结果
表1展示了在系统评价和伞形评价中,所有三项任务中不同账户之间一致性的Kendall W系数结果。除了与Gemini相关的2个项目外,所有其他指标都显示出显著的一致性(P < 0.05)。在72%的情况下,LLM在数据提取方面的表现一致性最高,优于全文筛查和偏见风险评估。
广义估计方程(GEE)测试的结果分析了LLM类型的影响。
讨论
原假设认为,在连续三周内,ChatGPT、DeepSeek和Gemini LLM在全文筛查、数据提取和偏见风险评估任务中的表现没有差异,但这些假设被推翻了。DeepSeek在数据提取方面的表现最好,而Gemini的表现最弱。然而,Gemini在数据提取任务中通过交互作用显示出改进潜力。ChatGPT的表现也有所提升。
结论
AI LLM,特别是DeepSeek,在数据提取方面展现出潜力。然而,它们在全文筛查和偏见风险评估任务中的表现不够理想。尽管Gemini在数据提取方面通过交互作用有所改进,但其较低的一致性降低了可靠性。此外,ChatGPT在系统评价中的表现优于伞形评价。因此,LLM应主要作为辅助工具使用,而不是作为独立的解决方案。
披露信息
Emami博士和Shirani博士未报告任何利益冲突。
Emami博士是加拿大萨斯喀彻温省萨斯卡通市萨斯喀彻温大学牙科学院的讲师。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号