《International Urogynecology Journal》:Artificial Intelligence in Scientific Publications: From Theoretical Past to Transparent Future Regulation
编辑推荐:
人工智能(Artificial Intelligence, AI)近年来已从根本上改变了科学出版生态系统。为充分理解这些颠覆性技术当前产生的影响,研究人员有必要追溯其历史起源、分析当今的大规模应用,并反思应引导其未来使用的监管框架。人工智能的理论基础可追溯至2
人工智能(Artificial Intelligence, AI)近年来已从根本上改变了科学出版生态系统。为充分理解这些颠覆性技术当前产生的影响,研究人员有必要追溯其历史起源、分析当今的大规模应用,并反思应引导其未来使用的监管框架。人工智能的理论基础可追溯至20世纪50年代。1950年英国数学家Alan Turing提出"图灵测试(Turing Test)",作为评估机器是否具备与人类无法区分的智能行为能力的概念性方法。尽管当时技术条件无法验证这些理论,但Turing奠定了定义该领域数十年的哲学基础。人工智能作为学科正式诞生于1956年达特茅斯会议(Dartmouth Conference),John McCarthy在此首次提出"人工智能(Artificial Intelligence)"这一术语。此后数十年取得显著进展:1966年Joseph Weizenbaum创建史上首个聊天机器人ELIZA;1966至1972年间开发出首个能对其自身行动进行推理的移动机器人Shakey。医学领域,20世纪70年代诞生"专家系统(expert systems)"——INTERNIST-1(1971)是内科学诊断的开创性系统,MYCIN(1976)通过识别致严重感染的细菌并推荐特定抗生素治疗成为专家系统典范。尽管这些工具在临床广泛应用中面临技术与伦理障碍,但确立了支撑现代AI的宝贵概念。1997年Deep Blue击败国际象棋世界冠军Garry Kasparov展示了高级计算处理能力之威力;2017年美国食品药品监督管理局(FDA)批准首款用于心脏影像分析的云端临床AI应用,标志向真实临床实践的过渡。现今,大语言模型(Large Language Models, LLMs)如ChatGPT的融入对学术生态造成空前冲击。据估计约76%的研究人员使用AI技术优化写作;2024年PubMed收录期刊中约13.5%的文章(约20万篇)显示经AI工具处理痕迹,预印本中比例更高,计算机科学等学科2024年末超20%。同行评审中53%的学术审稿人已在评审流程中使用AI工具,中国和非洲地区分别达77%和66%,早期职业研究人员使用率达87%。正确使用AI具实质且民主化益处:为非英语母语研究人员提供流畅翻译与高质量语言润色,显著降低限制学术发表的历史语言不平等;AI也大幅加速写作进程,使用LLMs的研究人员预印本产出量约高出未使用者三分之一。针对大规模应用,出现基于困惑度(perplexity)与变异性指标的AI生成内容检测工具(如Originality.ai、ZeroGPT、GPTZero及Turnitin),但其存在关键局限:假阳性率高(尤对非英语母语作者),且因科技文稿具固定结构、必要重复及高度专业术语而难以准确分析。展望未来,绝对禁止策略适得其反。合理做法为允许在研究特定环节(如改善写作与清晰度)声明使用AI,明确禁止用于数据生成、图像或参考文献伪造。顶级期刊已快速调整政策,优先透明度而非惩罚性检测:AI绝不可列为作者(因其无道德与法律责任);几乎所有期刊严格禁止用AI生成图像或图表(Science允许用AI提升可读性但要求在方法部分完整披露,并在附信与致谢中说明;Nature要求方法部分披露,禁止AI署名及图像生成;Cell Press与The Lancet采取类似政策,允许文字编辑但禁止AI署名及生成图像;所有情形下错误之全责由人类作者承担)。虽AI文字润色在透明前提下可被接受,真正危险在于模型"幻觉(hallucination)"——生成虚假数据与完全捏造的参考文献。2026年Nature刊文揭示数万篇含AI生成无效参考文献的出版物,计算机科学会议中该比例从2024年0.3%升至2025年2.6%。出版机构正部署专门AI工具自动核验引文真实性,以惩处蓄意造假并保护科学记录完整性。最严峻的工业级威胁系"论文工厂(paper mills)"——利用生成式AI大规模兜售欺诈性手稿的非法机构,研究显示1999至2024年间近10%肿瘤学研究文章疑似源自此类工厂,占比从2000年代初1%激增至2020年代超15%,甚至渗透高影响因子期刊。当前对科学出版中AI应用持纯粹限制性政策既无用也不现实,检测与反检测之军备竞赛注定无法获胜。理性路径是制定明确规则允许AI使用,并由多期刊协同建立全球标准化规范,培育"良好实践(good practice)"文化。AI不会退出科学生态,挑战在于构建稳健伦理框架,在利用其加速发现的潜力同时严格捍卫构成科学基石之信任。
论文解读:科学出版物中的人工智能(AI):从理论历史到透明化未来监管
研究背景与意义
近年来人工智能(Artificial Intelligence, AI)尤其是大语言模型(Large Language Model, LLM)如ChatGPT的广泛应用,已从写作辅助渗透至学术同行评审甚至数据生成环节,引发对研究诚信、引用造假及"论文工厂(paper mill)"泛滥的担忧。与此同时,现有AI生成文本检测工具存在较高假阳性率且对非英语母语作者不公,一味禁止AI使用亦不现实。该文综述AI在科学出版领域的历史沿革、当前应用现状、风险与收益,并梳理主流期刊监管政策走向,呼吁以透明披露替代绝对禁止,建立标准化AI使用规范,发表于《International Urogynecology Journal》,对优化学术出版伦理规范具有重要参考价值。
主要关键技术方法概述
本研究为文献综述,研究人员通过梳理AI发展史关键节点(图灵测试、达特茅斯会议、ELIZA、Shakey、INTERNIST-1、MYCIN、Deep Blue及2017年FDA批准首款临床AI),整合已发表调查数据——包括2025年Frontiers对1645名活跃研究者的全球调研、2024年PubMed及预印本库AI使用率统计、已有文献报道的AI幻觉致虚假引文比例及论文工厂检出率机器学习模型分析结果——并归纳Nature、Science、Cell Press、The Lancet等顶刊现行AI政策,进行综合评述与前景展望,未涉及实验试剂、细胞培养或质粒构建操作。
研究结果
The Theoretical Foundations of Artificial Intelligence(人工智能的理论基础)
研究人员指出AI概念雏形源于1950年Alan Turing提出的"图灵测试(Turing Test)";1956年John McCarthy于达特茅斯会议(Dartmouth Conference)正式命名"Artificial Intelligence"。随后1966年Joseph Weizenbaum开发首个聊天机器人ELIZA,1966—1972年诞生首台具推理能力的移动机器人Shakey。医学领域1970年代出现专家系统,INTERNIST-1(1971)用于内科诊断,MYCIN(1976)用于致病菌识别与抗生素推荐,为现代AI奠定概念基础。1997年Deep Blue战胜Garry Kasparov展示计算优势,2017年FDA批准首款云端心脏影像分析临床AI应用标志进入真实临床实践。
Current Massive Adoption of AI in Scientific Publishing(AI在科学出版中的大规模应用)
据调查约76%研究人员用AI优化写作;2024年PubMed收录期刊中约13.5%(≈20万篇)文章显示AI处理痕迹,预印本中计算机科学等领域超20%;53%同行审稿人用AI辅助评审(中国77%、非洲66%、早期职业研究者87%)。正确使用时AI可降低非英语母语作者的语言壁垒并提速写作,使用LLM者预印本产量约多1/3。
Benefits and Limitations of AI Detection Tools(AI检测工具的益处与局限)
现常用Originality.ai、ZeroGPT、GPTZero、Turnitin等基于困惑度(perplexity)与变异性指标的检测工具,但对非英语母语作者假阳性率高,且难适应科技论文的固定结构、重复句式及专业术语,可靠性有限。
Future Regulatory Outlook: Permitted vs. Prohibited Uses(未来监管展望:允许与禁止的使用范畴)
研究人员主张禁止全盘封杀,应允许声明式使用AI进行文字润色与可读性提升,严格禁止用AI生成原始数据、研究图像或捏造参考文献。政策重心应从惩罚性检测转向透明披露。
Journal Policies: Transparency Over Punitive Detection(期刊政策:透明度优于惩罚性检测)
顶级期刊共识为:AI不得列为作者(无道德与法律责任);严禁AI生成图像/图表。Science允许AI改善可读性但要求在方法(Methods)部分披露,附信(cover letter)与致谢(acknowledgments)中额外说明;Nature要求方法部分披露,禁AI署名及图像生成;Cell Press与The Lancet允许文字编辑,禁AI署名及生成图像;作者对文稿一切错误负全责。
Hallucinations and Fabricated References(模型幻觉与伪造参考文献)
LLM"幻觉(hallucination)"可生成虚假数据与完全虚构的引文。Nature2026年分析显示含AI生成无效参考文献的出版物数万计,计算机科学会议中该比例从2024年0.3%升至2025年2.6%。出版社正引入AI工具专用于自动核验引文真实性,打击蓄意造假。
Paper Mills and Industrial-Scale Fraud(论文工厂与工业化规模学术欺诈)
生成式AI极大助长"论文工厂(paper mills)"批量产制欺诈稿件。基于机器学习识别已知论文工厂文本特征的研究发现,1999—2024年约10%肿瘤学文章具其特性,占比从2000年代初1%升至2020年代>15%,甚至侵入高影响因子期刊。
讨论与结论翻译总结
研究人员认为维持纯粹限制性AI政策既无效也不现实,检测与反检测间军备竞赛无法获胜。理性路径是推动多期刊协同制定明确、标准化的AI使用规则,培育"良好实践(good practice)"文化。AI不会退出科学生态,核心挑战是构建稳健伦理框架,在利用其加速科学发现的潜能同时,严格捍卫作为科学基石的信任与研究诚信。