综述:大语言模型助力知识合成与 AI 强化生物制造:开启生物产业新变革

【字体: 时间:2025年03月06日 来源:TRENDS IN Biotechnology 14.3

编辑推荐:

  研究人员针对生物制造难题,开展大语言模型(LLMs)在生物制造应用的研究,发现其可推动生物制造发展,意义重大。

  在科技飞速发展的当下,生物制造领域正面临着诸多挑战。生物制造旨在利用工程化的生物系统生产有价值的化学品和药物,随着合成生物学(SynBio)和系统生物学的进步,生物技术呈指数级增长,为生物制造带来新机遇的同时,也让其面临复杂的代谢调控、数据资源整合困难等问题。如何优化生物制造流程、提高生产效率,成为科研人员亟待攻克的难题。而大语言模型(LLMs)作为一种突破性的生成式人工智能,在知识生成、问题解决等方面展现出强大能力,这促使科研人员思考:能否将 LLMs 引入生物制造领域,为其发展带来新的转机?
在此背景下,来自华盛顿大学圣路易斯分校、中国科学院天津工业生物技术研究所等机构的研究人员展开了深入研究。相关成果发表在《TRENDS IN Biotechnology》上,为生物制造领域的发展提供了新的思路和方向。

研究人员开展此项研究时,运用了多种关键技术方法。首先,通过构建问答系统(SynBioGPT)测试开源 LLMs 在合成生物学问题上的性能,利用 LangChain 进行内容分割,OpenSearch 进行索引,嵌入数据实现搜索功能。其次,将 LLMs 与知识图谱相结合,利用知识图谱可视化和组织合成生物学信息,增强 LLMs 的可靠性和推理能力。此外,还运用了检索增强生成(RAG)技术,结合外部文档和自定义数据提升 LLMs 的信息检索和问题解决能力。

下面来具体看一下研究结果:

  • LLMs 助力生物技术数据检索:细胞工厂的发展需要多层次的工程优化,这依赖于可靠且完整的知识数据库。然而,文献中缺乏结构化数据集,传统的数据标注和检索依赖大量人力。LLMs 则可自动化数据标注和检索,比如预训练的 LLMs 能从合成生物学文献中选择如生物反应器条件、底物等关键特征。同时,知识图谱的运用可提高 LLMs 的可靠性等,像通过人类反馈强化学习(RLHF)和 RAG 等技术,能有效应对 LLMs 在学习过程中出现的问题。通过对多个 LLMs 的测试发现,RAG 可显著提升模型在合成生物学任务中的准确率,如 Llama3 在 RAG 增强后,准确率大幅提高,阿里巴巴的 Qwen 在使用论文全文进行 RAG 后,准确率与 Llama3 相近。
  • LLMs 作为生物序列模型:功能基因组学研究的测序数据与语言模型天然契合。与传统深度学习模型相比,LLMs 结构更统一,适应性更强,在蛋白质特性预测和结构优化等方面表现卓越,如 ProGen、xTrimoPGLM 等基于 LLMs 的序列模型展现出强大能力。此外,还有研究创建了用于基因表达和药物反应预测的预训练单细胞基础模型,不过目前序列语言模型在处理测序数据时,缺乏能有效捕捉和解释其生物学意义的分词器,而图神经网络与测序数据的结合展现出巨大潜力。
  • LLMs 推动细胞工厂发展:细胞工厂的发展涉及酶工程、途径设计等多个方面,依赖设计 - 构建 - 测试 - 学习(DBTL)循环。LLMs 可通过文本转化和特征选择,加速机器学习工作流程,预测细胞在生物反应器中的性能,还能为菌株工程提供策略,如从大量文献中提取代谢工程方法,为酵母途径工程提供遗传靶点和实验设计。但 LLMs 在定量目标预测上存在不足,因此与白盒模型(如基因组规模模型(GSM)和技术经济分析(TEA))整合,可弥补这一缺陷,推动基因组规模建模向全细胞建模发展,有望 revolutionize 计算机模拟细胞工程实验,提升 DBTL 循环效率。
  • 基于 LLMs 的自动驾驶实验室:尽管 DBTL 是当前细胞工厂的发展策略,但 LLMs 有望进一步减轻生物制造研究的人力负担,推动向自动驾驶实验室(SDL)的范式转变。在这个过程中,“AI 科学家” 利用 LLMs 协助人类科学家进行大规模分析和执行重复性 DBTL 任务。SDL 具有诸多优势,LLMs 可协助任务规划,将复杂任务分解为子推理步骤;自动化实验设计和规划,支持信息组织、数据分析等工作;还能与云计算和硬件控制集成,减少人类干预。同时,人工智能的进步也促进了 SDL 的发展,如主动学习(AL)可优化实验条件,自改进的 LLMs 能生成更精确的实验假设,LLM 校准确保模型符合伦理和科学严谨性。
  • AI 与生物技术融合的生物安全问题:目前 AI 与生物技术融合的生物安全标准尚不完善。一方面,LLMs 增加了生物武器或病原体合成的风险,可能绕过现有安全协议;另一方面,LLMs 的法规亟待完善,以保障数据隐私和知识产权保密。可通过使用安全的应用程序编程接口、在本地部署 LLMs 等方式解决这些问题。美国白宫也发布行政命令,要求特定 AI 模型开发者向联邦政府报告安全措施。

研究结论和讨论部分指出,LLMs 在生物制造领域虽展现出巨大潜力,但目前尚未广泛应用。主要面临多模态和非结构化数据整合困难、生物系统复杂且数据质量参差不齐、LLMs 测试基准不完善等挑战。未来,需开发能理解合成生物学术语、整合多种数据格式的 LLMs,加强高质量数据收集,构建动态的测试基准。此项研究意义重大,为生物制造领域引入了新的技术手段,为解决生物制造中的难题提供了方向,有望推动生物制造产业的智能化发展,同时也为后续研究指明了方向,促进多学科协作,共同推动生物制造与人工智能技术的深度融合。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号