喉科学领域大语言模型研究方案生成能力评估:ChatGPT-4.0与Gemini 1.5 Flash的对比分析

【字体: 时间:2025年09月20日 来源:European Archives of Oto-Rhino-Laryngology 2.2

编辑推荐:

  本研究针对喉科学研究中方法论构建的智能化需求,由研究人员开展大型语言模型(LLMs)生成研究方案能力的对比分析。通过系统评估ChatGPT-4.0和Gemini 1.5 Flash在六类研究设计中的表现,发现两者均能稳定生成方法论(p>0.05),其中ChatGPT在数据采集环节更优(5.17±1.12),而Gemini在统计分析方面更均衡。研究表明LLMs可作为喉科学研究设计的辅助工具,但需专家监督以确保复杂方法学的可靠性。

  

研究人员通过对比两大语言模型在喉科学研究方法论生成中的表现,设计了严谨的评估框架。从五大权威耳鼻喉科期刊筛选的80篇文献中,最终纳入60篇包含方法学与统计分析的研究,并按细胞培养、动物实验、前瞻性研究、回顾性研究、系统评价和人工智能(AI)六大类型分类。每个类别随机选取5篇文献(共30篇),要求ChatGPT-4.0和Gemini 1.5 Flash分别生成对应研究方法,并由两名独立评审进行盲法评估。

结果显示,两组模型的平均得分无统计学显著差异(p>0.05)。ChatGPT-4.0以5.17±1.12的均分略胜一筹,尤其在数据收集与测量评估环节表现突出;而Gemini模型则在统计分析维度展现出更均衡的性能。评审者间加权kappa值介于0.54-0.71之间,表明评分一致性达到中高度吻合。值得注意的是,按文章类型分层分析时,Gemini在Q1类研究中的性能波动具有统计学意义(p=0.038)。

结论指出,大型语言模型(LLMs)在构建喉科学研究方法论时具有相当的稳定性与一致性,可作为辅助科研设计的有效工具。然而针对统计分析等复杂方法学构建,仍需领域专家进行质量把控。本研究首次系统验证了LLMs在喉科学研究设计中的应用潜力,为智能化科研工具开发提供了实证依据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号