生成式AI在职业健康同行评审中的效能评估:效率与准确性的量化研究

【字体: 时间:2025年07月03日 来源:Occupational Medicine 2.4

编辑推荐:

  本研究针对学术写作中生成式人工智能(Generative AI)工具的评审效能进行首次量化分析。研究人员通过对比Microsoft Copilot、ChatGPT(GPT-3.5)、Google Gemini 1.0与5名人类评审对8篇职业健康论文初稿的评审表现,发现AI在反馈质量(均分3.44 vs 2.33)和时间效率(11.08分钟 vs 45.15分钟)上显著优于人类,但人类在建议质量(3.36 vs 2.85)更优。该研究为AI辅助学术评审提供了实证依据,对提升职业健康领域知识传播效率具有重要意义。

  

在学术出版领域,同行评审过程长期存在效率瓶颈——人类评审员需要数周时间完成评审,且质量参差不齐。与此同时,生成式人工智能(Generative AI)工具如ChatGPT已展现出强大的文本处理能力,但其在专业学术评审中的实际效能尚未量化。职业健康作为涉及多学科交叉的研究领域,尤其需要高效准确的评审机制来保障研究成果的及时传播。

新加坡国立大学公共卫生学院G.H. Lim领衔的研究团队在《Occupational Medicine》发表了一项开创性研究,首次系统评估了生成式AI在职业健康论文评审中的表现。研究人员设计了两阶段实验:第一阶段让3种AI工具(Microsoft Copilot、ChatGPT-GPT-3.5、Google Gemini 1.0)和5名人类评审员分别评审8篇职业健康论文初稿;第二阶段由资深专家组成评审小组,采用自研评分系统对64份评审报告进行盲评。

关键技术方法包括:(1)构建标准化评审流程,要求AI和人类评审员对摘要、引言等6个核心章节提供反馈;(2)开发5分量表评估反馈的相关性、完整性等维度;(3)记录时间效率指标;(4)采用R Studio进行统计分析。研究特别关注AI工具在提供参考文献和推荐审稿人时的"幻觉"(hallucination)现象。

研究结果呈现显著差异:

  1. 反馈质量:AI工具在反馈质量上全面超越人类,尤其在错误识别(3.22 vs 2.14)和建设性建议(3.52 vs 2.25)方面优势明显。
  2. 建议质量:人类评审在推荐审稿人(3.38 vs 2.83)和目标期刊(3.35 vs 2.84)建议上更可靠,主要受限于AI的算法限制。
  3. 时间效率:AI工具平均耗时仅11.08分钟,远低于人类的45.15分钟,且不受节假日影响。
  4. 工具差异:ChatGPT表现最优(综合评分3.54),但存在虚构审稿人现象;Google Gemini因算法限制无法提供审稿人建议。

讨论部分指出,生成式AI能有效解决传统评审的延迟问题,但需要建立新的使用规范:(1)AI更适合语法修正、结构优化等技术性评审;(2)人类专家应负责学术价值判断;(3)需建立AI生成内容的核查机制。研究特别警示AI工具可能产生看似合理实则虚构的参考文献,这要求使用者具备交叉验证能力。

该研究为学术出版提供了重要启示:合理分工的"人机协作"模式——AI处理基础评审以提升效率,人类聚焦核心学术判断——可能成为未来学术评审的新范式。随着大语言模型(LLM)技术的进步,定制化的学术评审AI助手将显著提升职业健康领域的知识传播效率。研究同时呼吁期刊编辑部明确AI使用规范,以兼顾效率与学术严谨性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号