《Biotechnology Advances》:Comparative evaluation of large language models for biotechnology review writing
编辑推荐:
本文系统评估了GPT-5 Pro、Gemini 2.5 Pro等主流大型语言模型(LLM)在生物制造(biomanufacturing)和微生物学领域的综述生成能力。研究发现,虽然LLM能高效整合文献并生成结构化内容,但在批判性分析、定量推理(如产物浓度titer、产率yield)和文献引用可靠性方面仍存在局限。建议研究者将LLM作为辅助工具,通过多模型交叉验证和人工深度介入提升综述质量。
研究背景与目标
随着ChatGPT等大型语言模型(LLM)的兴起,生物技术领域的综述文章撰写方式正在发生变革。本研究以“乙酸作为生物制造原料”、“鱼腥藻(Anabaena)作为太空探索新底盘”和“微生物群落降解聚乙烯(PE)塑料”三个案例,系统评估了GPT-5 Pro、Gemini 2.5 Pro、Qwen 3 Max、DeepSeek R1和Perplexity-Pro等模型在生成科学综述时的表现。研究聚焦于模型的文献整合能力、批判性分析深度、引用可靠性及创新性等维度。
方法论设计
研究采用统一的工作流程:首先构建包含受众、结构、引用要求等的结构化提示词,启用模型的“深度研究”模式;每个主题生成5-10次重复响应以降低随机误差;通过自动统计(如引用数量、图表生成)和人工专家评估(内容结构、批判深度、引用真实性等)相结合的方式进行分析。为消除训练数据偏差,鱼腥藻案例以未发表的内部研究为参照标准。
内容组织能力的差异
在乙酸案例中,GPT-5 Pro生成的综述逻辑清晰,从原料来源、纯化工艺到代谢工程应用层层递进,常以表格总结产物数据。但不同模型的内容组织风格迥异:Gemini 2.5 Pro和DeepSeek R1偏好编号子标题,而Qwen 3 Max则对模式生物和乙酸菌展开长篇论述。值得注意的是,GPT-5 Pro和Qwen 3 Max在深度研究模式下会主动询问用户偏好,例如是否需对比乙酸与其他碳源(如CO2、甲醇)的经济性,或侧重特定应用领域(化学品、燃料或蛋白质生产),这种交互显著影响了最终内容结构。
术语选择与数据呈现的局限性
词频分析显示,LLM倾向于使用“生产”“工程化”等通用词汇,而人类撰写的综述则包含icd(异柠檬酸脱氢酶)、pta(磷酸转乙酰酶)等具体基因与酶学术语。在图表生成方面,仅GPT-5 Pro和Perplexity-Pro能尝试创建代谢通路示意图或产量对比条形图,但后者常出现数据错误(如误报乙酸转化率超过葡萄糖)。此外,模型会直接复制已发表文献的图表(如Gu等2024年论文中的代谢通路图)却未规范引用,存在学术不端风险。
引用质量与文献覆盖度
LLM的引用数量普遍低于人类作者,且存在重复引用、格式混乱甚至虚构文献的问题。在乙酸案例中,Gemini 2.5 Pro和Perplexity-Pro引用量最高,但前者近半数来源为非同行评议的网页;GPT-5 Pro虽分析深度较强,但引用数量最少且重复率高。Pro版本相比基础版(如GPT-5 Auto vs. GPT-5 Pro)在引用量和准确性上均有提升,但仍表现出对特定出版社的偏好(如Gemini 2.5 Pro频繁引用MDPI期刊)。值得注意的是,DeepSeek R1的API版本出现高达30%的虚构引用。
批判性分析的不足
GPT-5 Pro在分析乙酸代谢瓶颈(如氧化还原平衡、底物毒性)和鱼腥藻太空应用潜力(如生命支持系统、原位资源利用ISRU)时展现出一定深度,但未能进行定量建模或指出数据矛盾(如将预测CO2吸收速率1–3 g/L·day?1范围混为一谈)。其他模型如Gemini 2.5 Pro虽能广泛汇总文献,却缺乏对关键指标(如产物生成速率)的深入解读。所有模型均未实现可靠的定量推理,且存在事实性错误(如误称鱼腥藻可作为膳食补充剂,忽略其产毒素特性)。
实践应用策略
研究表明,单一LLM尚无法独立完成高质量综述,但研究者可组合利用不同模型优势:例如通过Perplexity-Pro快速搜集文献并生成图表代码,用Gemini 2.5 Pro拓展参考文献覆盖,再借GPT-5 Pro优化论述逻辑。需特别注意人工校验数据的真实性(如产物浓度titer、产率yield),并对LLM生成的乐观预测(如“几年内实现电-生物转化”)保持批判态度。
未来综述写作的范式转型
在LLM普及的背景下,生物技术综述应超越文献罗列,强化研究属性。建议作者在熟悉领域内使用LLM辅助写作,重点融入原创性视角、争议点分析、定量数据整合(如通过模拟计算验证代谢通量)及产业化案例。同时需明确标注LLM使用流程,推动建立人机协作的标准化工作流程,最终实现兼具学术严谨性与创新性的综述产出。