编辑推荐:
本文聚焦大语言模型(LLMs)融入同行评审带来的影响。探讨了识别与规范 LLMs 参与评审的难题,指出诸多警示信号,如文本特征、评审质量等方面的问题。并给出一系列建议,旨在维护同行评审的严谨性,对学术出版意义重大。
引言
大语言模型(LLMs)如 ChatGPT 的出现,在学术界掀起了新的浪潮。它为提高研究生产力和效率带来了希望,但在融入同行评审过程时,也引发了诸多担忧。同行评审作为学术出版的基石,正面临着投稿量增加和 LLMs 潜在渗透的双重挑战,这可能会给本就负担沉重的系统带来更大压力,危及科研的完整性和质量。
LLMs 功能强大,能在科学手稿上生成连贯、结构化的反馈,还能协助筛选手稿、评估适用性等,加速出版进程。然而,由于其能力和易获取性,禁止评审人员使用既不明智也不现实,而且难以确定是否使用了 LLMs,如何监控和管控成为难题。
术语使用
为保持一致性,本文中 “LLM-polished peer review” 指仅用于文体改进(如语言、结构)的报告;“LLM-shaped peer review” 用于中性描述可能涉及 LLMs 进行文体修改或内容生成的报告;“LLM-generated peer review” 则指完全由 LLMs 生成的评审。
识别和规范 LLM 参与的同行评审的挑战
识别 LLM 参与的同行评审困难重重。LLMs 本身具有不透明性,其复杂的训练数据、内部运作和数据处理过程让人难以理解输出的生成方式。此外,一些人性化算法或工具旨在逃避 AI 检测,使 LLM 生成的文本更自然、个性化,进一步模糊了人与 AI 生成评审的界限。
许多评审人员可能不会主动披露使用 LLMs 的情况,即便要求作者披露 AI 使用,这也未成为标准做法,而且评审过程通常保密,评审人员更不愿披露。同时,即使披露了,在缺乏特定认证技术(如水印)的情况下,也难以证实其真实性。
保密性也是一大问题。多数 LLMs 可能会存储输入数据用于后续训练,评审人员在使用时可能会无意将未发表的数据或作者身份信息泄露。虽然一些本地模型(如 DeepSeek R1)和临时聊天模式可避免这些风险,但用户可能并不清楚其中差异。目前,不同的出版机构对此态度不一,有的关注数据安全和作者保密问题,有的则未明确禁止使用 LLMs 生成评审内容。
另外,评估 LLMs 在同行评审中的可靠性和质量缺乏既定方法。LLMs 发展迅速,新模型不断涌现,使得制定清晰的指南和检测方法变得困难。
同行评审中潜在 LLM 参与的警示信号
LLM 参与的评审往往具有一些明显特征。文本方面,语法过度完美、风格过于一致,常使用标题、副标题,标点近乎完美,某些排版元素(如破折号)使用过多,过渡词使用频繁,这些都可能暗示 LLM 的参与。但需注意,部分人类评审人员也可能达到类似的文本质量。
在评审内容上,LLMs 缺乏人类评审人员的细致批判性洞察力。它们常给出笼统的赞扬或批评,难以评估复杂或小众的学术主题,无法提供针对具体情境的可行反馈,很少建议添加或删除特定分析内容,在讨论部分也缺乏关键分析、与现有文献的比较和进一步研究的建议。而且,LLMs 还可能生成虚假信息和参考文献。
评审的不一致性、矛盾性和迎合性也是警示信号。LLMs 对提示的微小差异敏感,同一提示可能产生不同回复,导致评审内部不一致,甚至与人类评审意见矛盾。不同评审人员使用 LLMs 对同一稿件进行评审,可能出现相似或矛盾的评论。此外,LLMs 可能会迎合用户期望,缺乏可靠性。
过度强调局限性也是一个问题。LLMs 可能会受作者引导,聚焦于作者明确指出的局限性,而不是独立评估研究的弱点。同时,LLMs 还可能存在偏见,比如更倾向于长文章、知名作者或机构的文章,影响评审的公平性。
应对挑战的建议
面对 LLMs 给同行评审带来的挑战,有一系列建议可供参考。
要求评审人员在期刊指定部分或向编辑的保密评论中披露 AI 工具的使用情况,包括使用目的、工具和提示的具体细节。
若稿件评审过程使用了 LLMs,期刊应通知作者,以便作者应对工具可能产生的幻觉、矛盾陈述和虚假内容等问题。
开发能够识别同行评审中是否使用 LLMs 的工具,编辑团队可与编辑系统提供商或出版商合作推动工具的实施。
期刊和机构需要制定关于在同行评审中使用 AI 的明确指南,并定期更新,以跟上 LLM 技术的发展,与国际医学期刊编辑委员会(ICMJE)和世界医学编辑协会(WAME)等组织的既定政策保持一致。
对评审人员和编辑进行培训,让他们了解 LLM 参与评审的潜在特征,以及使用 LLMs 的风险和益处,强调保持人类监督和批判性思维的重要性,可通过扩大指导和培训计划来提升评审人员评估传统和 AI 生成内容的能力。
LLMs 应作为辅助工具,而非人类评审人员的替代品,更适合用于完善评审初稿,而非从头创建评审。
人类评审人员应专注于研究的技术、临床和影响相关方面,如方法学、上下文相关性和研究结果的意义,因为验证结果和解释数据等关键任务目前仍超出 LLMs 的能力范围,LLMs 在评审中应主要限于语言和编辑方面的协助。
部署私人托管的 LLMs 可确保敏感数据在用户控制之下,避免数据外传,增强安全性和保密性,但这需要大量资源;也可考虑使用像 DeepSeek R1 这样的本地运行的离线版本 LLMs(若可用)。
实施检测作者针对 LLM 参与评审的潜在操纵行为和减轻偏差的机制,如内容验证和去偏算法。
评审人员需仔细查看 AI 工具的使用条款,确保遵守保密要求。
若有相关选项,评审人员应采取措施防止数据被存储用于 LLM 训练,如使用基于 GPT 工具的临时聊天功能保护保密性。
期刊可考虑提供自己的 LLM 服务,协助评审人员进行评估,有助于监控和规范 AI 使用,确保符合期刊政策,减少评审质量的不一致性,并保护保密性。
结论
LLMs 融入同行评审过程既有机遇也有挑战。虽然它有提升评审质量和效率的潜力,但在保密性、透明度、可靠性和道德合规性方面存在重大问题。由于 LLMs 的不透明性、缺乏披露以及技术的快速发展,加强监督至关重要,需要制定明确政策、开展评审人员教育并建立强大的检测机制。鉴于同行评审目标与当前 LLMs 局限性之间的差距,LLMs 应作为人类判断的补充工具,评审人员仍需负责关键的方法学评估等工作。学术界应谨慎评估 LLMs 的能力和局限性,以维护同行评审和科学研究的完整性,否则可能会让 LLMs 过度影响甚至重塑同行评审过程。