
-
生物通官微
陪你抓住生命科技
跳动的脉搏
生成式AI在职业健康同行评审中的效能评估:效率与准确性的量化研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Occupational Medicine 2.4
编辑推荐:
本研究针对学术写作中生成式人工智能(Generative AI)工具的评审效能进行首次量化分析。研究人员通过对比Microsoft Copilot、ChatGPT(GPT-3.5)、Google Gemini 1.0与5名人类评审对8篇职业健康论文初稿的评审表现,发现AI在反馈质量(均分3.44 vs 2.33)和时间效率(11.08分钟 vs 45.15分钟)上显著优于人类,但人类在建议质量(3.36 vs 2.85)更优。该研究为AI辅助学术评审提供了实证依据,对提升职业健康领域知识传播效率具有重要意义。
在学术出版领域,同行评审过程长期存在效率瓶颈——人类评审员需要数周时间完成评审,且质量参差不齐。与此同时,生成式人工智能(Generative AI)工具如ChatGPT已展现出强大的文本处理能力,但其在专业学术评审中的实际效能尚未量化。职业健康作为涉及多学科交叉的研究领域,尤其需要高效准确的评审机制来保障研究成果的及时传播。
新加坡国立大学公共卫生学院G.H. Lim领衔的研究团队在《Occupational Medicine》发表了一项开创性研究,首次系统评估了生成式AI在职业健康论文评审中的表现。研究人员设计了两阶段实验:第一阶段让3种AI工具(Microsoft Copilot、ChatGPT-GPT-3.5、Google Gemini 1.0)和5名人类评审员分别评审8篇职业健康论文初稿;第二阶段由资深专家组成评审小组,采用自研评分系统对64份评审报告进行盲评。
关键技术方法包括:(1)构建标准化评审流程,要求AI和人类评审员对摘要、引言等6个核心章节提供反馈;(2)开发5分量表评估反馈的相关性、完整性等维度;(3)记录时间效率指标;(4)采用R Studio进行统计分析。研究特别关注AI工具在提供参考文献和推荐审稿人时的"幻觉"(hallucination)现象。
研究结果呈现显著差异:
讨论部分指出,生成式AI能有效解决传统评审的延迟问题,但需要建立新的使用规范:(1)AI更适合语法修正、结构优化等技术性评审;(2)人类专家应负责学术价值判断;(3)需建立AI生成内容的核查机制。研究特别警示AI工具可能产生看似合理实则虚构的参考文献,这要求使用者具备交叉验证能力。
该研究为学术出版提供了重要启示:合理分工的"人机协作"模式——AI处理基础评审以提升效率,人类聚焦核心学术判断——可能成为未来学术评审的新范式。随着大语言模型(LLM)技术的进步,定制化的学术评审AI助手将显著提升职业健康领域的知识传播效率。研究同时呼吁期刊编辑部明确AI使用规范,以兼顾效率与学术严谨性。
生物通微信公众号
知名企业招聘