综述:生物学和化学中的大语言模型综述
《EXPERIMENTAL AND MOLECULAR MEDICINE》:A survey on large language models in biology and chemistry
【字体:
大
中
小
】
时间:2025年11月17日
来源:EXPERIMENTAL AND MOLECULAR MEDICINE 12.9
编辑推荐:
本综述系统梳理了大语言模型(LLM)在生物学和化学领域的前沿进展。文章深入探讨了如何将蛋白质序列、单细胞数据、SMILES字符串等复杂科学数据转化为适合LLM处理的表征方式,并详细评述了BERT-like、GPT-like及多模态等核心模型架构。综述重点分析了这些模型在蛋白质结构预测(AlphaFold2)、de novo分子设计、反应预测等关键任务中的应用,展望了其通过统一多模态学习加速生物医学发现的巨大潜力。
引言
人工智能(AI)正在通过提供适用于生物系统复杂性的可扩展计算框架来重塑生物医学研究。这场革命的核心是生物/化学语言模型(LM),包括大语言模型(LLM),它们正在将分子结构重新概念化为一种适合先进计算技术的“语言”。本综述批判性地审视了这些模型在生物学和化学中的作用,追溯其从分子表征到分子生成与优化的演变历程。
生物语言模型
大语言模型(LLM)的成功为数据分析开辟了新范式。在生物学领域,利用蛋白质序列、结构、核苷酸和物种分类学等各种生物数据的研究已经展开。Transformer架构在生物学问题上的应用带来了重大突破,其中AlphaFold2(AF2)和RoseTTAFold(RF)成为蛋白质结构预测领域的里程碑模型。
蛋白质语言模型
蛋白质的序列特性使得自然语言处理中的语言建模技术得以应用。早期模型如ProtBERT、MSA Transformer和ProtTrans借鉴了深度语言模型的核心技术,同时在输入格式(如单一序列、多序列比对MSA)和架构(如单向和BERT式双向编码器)上进行了探索。ESMFold2在不依赖MSA的情况下实现了AlphaFold2级别的蛋白质结构预测精度,仅通过语言建模捕捉上下文依赖关系。模型参数规模的扩大和更快的结构预测凸显了语言模型在大型生物数据上训练的潜力。ProtMamba表明,无需MSA也能进行蛋白质语言建模,该模型采用基于Mamba的状态空间架构而非基于注意力的架构来处理长序列。
蛋白质设计旨在生成具有全新功能和结构的蛋白质,生成模型在此过程中可发挥关键作用。ProGen通过将条件标签纳入自回归Transformer架构,实现了受控的蛋白质序列生成。ProGen2和ProtGPT2通过利用更复杂的条件标签来生成满足结构和功能约束的序列,进一步改进了先前模型。最近,为文本到图像生成开发的扩散架构已被应用于蛋白质结构生成。RFdiffusion通过SE(3)等变性融入空间约束,实现了更高效、物理一致性更好的蛋白质结构采样。这种结构建模促进了支架任务的完成,而ProteinMPNN和Foldseek等工具加速了蛋白质设计的进展。
蛋白质结构模型
蛋白质结构模型从蛋白质的一级氨基酸序列预测其三级结构。传统上,X射线晶体学、核磁共振(NMR)光谱和冷冻电子显微镜(cryo-EM)等技术被用于解析蛋白质结构。然而,这些实验方法常受限于高成本、时间要求和技术的局限性,导致结构数据的积累速度远慢于已知蛋白质序列数量的快速增长。这种序列-结构数据的不平衡(例如UniProtKB与PDB之间的差距)凸显了计算预测方法补充实验工作的必要性。
AlphaFold(AF)和AlphaFold2(AF2)在蛋白质结构预测领域展现了卓越性能,这在其分别于CASP13和CASP14中的成功中得到证明。AF2由两个主要模块组成:Evoformer和结构模块。与使用基于ResNet的卷积神经网络(CNN)的AF不同,AF2引入了基于注意力的Evoformer,能够高效处理MSA和残基对相互作用。Evoformer可被解释为一种生物学特化的Transformer,其中MSA被视为自然语言中的序列,捕捉同源蛋白间的进化模式。这种方法在蛋白质语言模型(pLM)中得到了更充分的体现,pLM旨在通过隐式建模进化信息来替代MSA。结构模块允许从一级序列到3D结构重建的端到端学习,达到接近实验的精度。
一些平台被开发出来以扩展蛋白质结构模型的适用性和可及性。ColabFold利用宏基因组序列数据库(ColabFoldDB)来增强MSA的多样性和质量,并可通过Google Colaboratory在基于Web的GPU资源上运行。这种方法在有效减轻计算资源负担的同时,提高了高精度蛋白质结构预测的可及性。Phyre2.2是一个用于蛋白质结构和功能预测的升级平台,在保持用户友好界面的同时,集成了AlphaFold预测的结构作为新模板。它通过利用PDB之外更广泛的结构模板,支持大规模结构分析。此外,它还支持域级优化和批量预测模式,从而成为补充实验研究的计算替代方案。
核苷酸语言模型
与自然语言不同,DNA没有固有的“单词”概念,其组成仅限四种核苷酸——腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C)——而蛋白质序列由大约20种氨基酸组成。这种有限的字母表降低了整体信息密度,使得开发有效的DNA语言模型更具挑战性。
早期方法如DeepSite使用CNN和循环神经网络(RNN)对DNA序列进行建模。然而,CNN难以捕捉长程依赖,RNN则存在计算效率低和可扩展性问题。为解决这些限制,DNABERT采用基于BERT的双向编码器表示(Bidirectional Encoder Representations from Transformers)的掩码语言建模(MLM),并使用k-mer标记化(在计算机科学中称为n-gram),实现了更有效的序列表示。后续模型包括GROVER和DNABERT2,利用了SentencePiece框架采用的字节对编码(BPE)标记化,以灵活定义标记单元。这有助于减少序列信息丢失并提高计算效率。因此,基于Transformer的模型已成功应用于直接从DNA序列识别启动子和转录因子结合位点(TFBS)等任务。
Caduceus采用字符级(碱基对)标记化,确保了对微小序列变异的鲁棒性。此外,通过双向建模DNA序列并纳入反向互补(RC)等变性,Caduceus在调控位点预测和长程SNP效应推断等任务上表现出卓越性能。最近,研究已超越掩码语言建模,转向生成方法,例如MegaDNA,一种基于Transformer的DNA序列生成模型。
GenSLM是一种能够预测突变效应的RNA语言模型,通过捕捉原始和突变RNA序列之间的差异来预测其功能效应。该模型使用密码子级词汇表对RNA序列进行标记化,避免了移码问题。该研究解决了输入长度超过标准Transformer最大容量限制的问题,这被认为是早期用于核苷酸序列分析的基础模型的基本架构瓶颈。Evo、HyenaDNA和Caduceus采用了Hyena和Mamba等专用架构来支持长序列建模。
单细胞语言模型
随着高维基因表达数据的积累,单细胞语言模型已成为生物学的新前沿。虽然蛋白质和核苷酸天然是序列性的,但单细胞基因表达数据并非普遍是序列性的。因此,提出了一种基于基因表达水平对基因进行排序的方法。细胞内的基因被视为句子中的单词,基于Transformer的模型被应用于捕捉它们之间的潜在依赖关系,如同其他生物语言建模任务。
单细胞表征学习的最新进展在捕捉细胞异质性方面已超越传统的基于标记基因的方法。scBERT通过利用全基因表达谱解决了这一局限,在细胞类型注释中表现出强大性能。Geneformer通过基于计数统计对基因进行排序来处理基因表达数据的非序列性质,在分类任务中也显示出有效性。在此基础上,scGPT将基因嵌入作为输入标记,并输出细胞嵌入,在两个级别上联合学习表征。它在细胞类型分类、扰动预测、批次校正和多组学整合等任务中取得了最先进的结果。这些发现强调了大规模单细胞数据集(如人类细胞图谱Human Cell Atlas、CellMarker)的价值以及嵌入模型捕捉细胞复杂性的潜力。
与此同时,有研究提出利用通用LLM直接整合先验生物学知识的方法,超越了单纯的基因序列建模。例如,尽管GPT-4是在通用人类语言上训练的,但它已显示出基于描述基因表达水平的文本提示进行自动细胞类型注释的能力。因此,GenePT和scELMo通过应用来自包括NCBI数据库在内的生物医学文献语料库的文本嵌入API,构建了基因级和细胞级嵌入。据报道,其性能优于一些生物数据驱动的模型,如Geneformer。此外,CancerGPT是一个在文本语料库上微调的GPT-3模型,通过对齐文本表征与细胞信息,预测罕见组织类型内的药物反应对。开发具有精细化细胞嵌入的疾病特异性模型可能会进一步推动精准医学。
生物分子表征
蛋白质和核酸等生物大分子可以通过多种模态进行表征,以支持机器学习应用。基于序列的表征使用氨基酸或核苷酸字符串,是ESM、ProtBERT和DNABERT等蛋白质和基因组语言模型的基础。结构表征利用原子坐标、接触图或距离矩阵捕捉空间信息,被AF和ESMFold等结构模型利用。基于图的方法将生物分子抽象为节点和边,使得能够使用SE(3) Transformer等几何深度学习模型。功能表征包括基因本体论(Gene Ontology)术语、蛋白质家族注释和亚细胞定位,用生物学背景丰富了模型。在细胞水平,单细胞RNA测序(scRNA-seq)等组学数据被编码为高维表达向量。
标记化策略
标记化方法已从传统的机器学习技术(包括k-mer方法)发展到生物分子特化的策略,如基于结构和密码子的标记化,这对于精确和详细的生物分子建模至关重要。在蛋白质和核苷酸模型中,k-mer标记化(如3-mer,6-mer)用于捕捉局部生化背景,如DNABERT和ProtBERT所示。一些模型使用在大型序列语料库上训练的字节对编码(BPE)或unigram模型,如DNABERT2、ESM和ProGen。也采用基于密码子或保留密码子的标记化,以避免核苷酸建模中的移码伪影。scBERT采用gene2vec方法生成基因嵌入,这促进了BERT架构在单细胞RNA测序数据中的应用。这些定制策略确保了在预训练语言模型中高效表示生物学的语法和语义。
BLM在生物医学中的应用
分子细胞生物学的整合建模
AF2展示了AI在蛋白质结构预测中的优势,并自此激发了广泛的后续研究。AlphaFold3、RoseTTAFoldNA和RoseTTAFold All-Atom等模型将其焦点扩展到蛋白质之外,包括RNA、DNA和配体等其他生物学相关分子。特别是,全原子结构预测在精确重建3D坐标方面引入了计算挑战。这反映了一种日益增长的认识,即结构准确性对于理解生物分子功能至关重要,不仅在蛋白质中,在结构对调控活性起关键作用的RNA中也是如此。同时,基于大语言模型(LLM)的方法已开始整合结构信息,超越了序列建模。ESM3联合嵌入了序列、结构和功能,标志着向多模态表征的过渡。还开发了特化模型,如ESM-DBP用于预测DNA结合蛋白,采用了利用序列和结构特征的混合方法。
在生物语言模型的统一建模背景下,基础模型旨在通过整合不同的生物模态来学习全面的细胞表征。这些包括表观遗传标记、空间转录组学、蛋白质表达数据和扰动特征,可用于更深入地了解细胞功能。这种整合标志着一个更广泛的转变,即从特定模态的模型转向更合理地反映生物系统固有复杂性的统一表征。
多模态基础模型
多模态大语言模型(MLLM)提供了一个框架,用于对齐临床笔记、蛋白质序列和分子结构等异构数据类型。
BiomedGPT将自然语言与生物医学模态(尤其是视觉表征)对齐,以实现跨模态推理,用于视觉-语言任务。它专注于通过灵活的问题回答实现诊断、总结、临床决策支持等应用。然而,此类模型在复杂临床场景中的跨模态推理仍存在局限,包括放射学图像的解释和文本冲突的解决。MediConfusion提供了一个诊断基准,系统评估多模态医学LLM的失败模式。
Tx-LLM利用了在多样化生物数据集上进行大规模预训练的优势。具体来说,它接受了涵盖RNA、DNA、蛋白质序列以及SMILES的序列级信息训练。这种综合方法在端到端药物发现任务中实现了正向迁移性能,优于未整合生物序列数据的模型。类似地,BioMedGPT-10B通过专注于蛋白质和分子问答(QA)为药物发现做出贡献,该模型在细胞序列、蛋白质和分子结构上进行了训练。这些进展凸显了LLM作为生物医学中统一多模态平台的潜力。
化学语言模型
化学语言模型(CLM)被提出用于从大规模化学数据中学习小分子的结构-活性关系,使用各种分子的序列表示,例如简化分子线性输入规范(SMILES)。
模型类型
与pLM类似,大多数CLM利用Transformer架构,类似于自然语言处理中的模型,以理解、生成和操作化学结构和反应。这些模型根据其架构设计大致分类,每种都针对化学信息学和药物发现中的特定任务进行了优化。主要模型类型包括仅编码器(BERT-like)模型、仅解码器(GPT-like)模型、编码器-解码器架构,以及整合不同数据格式的新兴多模态LLM。这些架构选择决定了模型如何处理分子表示,并执行从性质预测到de novo分子设计和逆合成分析等任务。
化学编码器
仅编码器Transformer模型主要受BERT启发,旨在提取分子的上下文表征,非常适合性质预测和分子理解。ChemBERTa采用RoBERTa框架,结合了MLM和多任务回归,其中使用RDKit计算的分子特征定义了辅助性质预测任务。Mol-BERT应用MLM来学习化学上知情的标记级依赖关系,并针对性质分类和活性预测等任务进行微调。MoLFormer使用线性注意力和旋转嵌入扩展了这种方法,产生可用于下游回归和分类任务的紧凑表征,尽管它仅限于相对较小的分子。进一步的编码器变体改进了标记表征或整合了结构先验。MolRoPE-BERT增强了位置编码,而MFBERT、SELFormer和semi-RoBERTa引入了架构修改以获得更大的化学表达能力。像GROVER这样的图增强编码器直接整合了拓扑特征,弥合了序列和图表示之间的差距。
化学解码器
仅解码器Transformer模型遵循GPT架构,为自回归生成进行了优化,并已成为de novo分子设计中不可或缺的部分。MolGPT优先考虑因果性以学习标记间的依赖关系,并最终生成新分子。它支持条件生成策略,以偏向具有特定化学性质的输出。GP-MoLFormer是MoLFormer-XL的仅解码器适配版本,针对无约束分子生成、支架完成和条件性质优化等任务进行了优化。其他基于GPT的化学模型包括SMILES-GPT和iupacGPT,两者都从GPT-2适配而来,用于分子和命名法序列生成。cMoIGPT扩展了此框架,用于在性质或支架约束下的可控生成。Taiga将GPT建模与强化学习相结合,以引导分子合成朝向多目标。
编码器-解码器架构
编码器-解码器Transformer模型专为序列到序列(seq-to-seq)任务设计,使其在逆合成分析、反应预测和跨域分子翻译等应用中特别有效。Text+ChemT5采用共享的编码器-解码器T5主干,支持跨越化学和自然语言域的双模态任务,包括文本到分子生成及其反向过程。SELFIES-TED基于BART风格的编码器-解码器结构构建,专为化学约束的生成任务而设计。它在分子预测和生成基准测试中 consistently 表现良好,显示出强大的泛化能力。
除此之外,Chemformer和BARTSmiles采用BART架构用于生成和判别性分子任务。MOLGEN在预训练期间引入自反馈,以更好地将模型输出与化学现实约束对齐。Molecular Transformer、Retrosynthesis Transformer和SCROP等模型专注于正向和反向反应预测,采用快照学习、语法校正和束搜索等技术来提高准确性和句法有效性。混合方法也出现了:GO-PRO整合了上下文无关文法,RetroTRAE通过片段标记化跟踪原子级转化,GCT用条件变分自编码器增强Transformer以进行潜在采样。基于提示的模型,如RetroSynth-Diversity和Disconnection-Aware Transformer,通过基于碎片化策略或断键启发法指导输出,进一步改进了逆合成分析。
多模态LLM
化学信息本质上是多模态的,包含文本描述、分子图、2D描绘、3D坐标和更高维的性质,如极化性。标准的CLM设计用于仅处理文本格式,无法完全捕捉异构信息。为了解决这个问题,最近的CLM将LLM与结构编码器集成,以实现跨模态推理。Mol-LLaMA将图表示纳入语言模型,改进了官能团识别和逆合成分析等任务。GIT-Mol通过单独的编码器处理图、图像和文本,然后通过共享表示层融合它们的模态特定标记。使用对比目标来对齐模态,联合预测头支持跨模态的多任务学习。LLM-MPP类似地通过交叉注意力和对比学习对齐SMILES、2D图和文本描述,以实现连贯的分子表示。视觉-语言模型如PRESTO和ChemVLM联合编码分子描绘和相关文本,以支持合成规划和反应条件推断。nach0将SMILES、图像和文本视为共享表示空间中的对齐模态,用于多模态推理。总的来说,这些方法反映了旨在化学语言模型中实现有效模态融合的不断扩大的设计策略范围。
预训练和微调策略
自监督学习(SSL)
自监督学习(SSL)是无监督学习的一个强大子集,其中标签从输入数据本身自动生成。这种方法通常用于在大型未标记数据集上预训练模型,这对于确保学习表征的泛化性至关重要。在这方面,掩码语言建模(MLM)是基于编码器的语言模型广泛采用的预训练任务。在这种方法中,输入序列中一定比例(例如15%)的标记被随机掩码,模型被训练根据上下文预测这些被掩码的标记。这迫使模型学习深度上下文表征并隐式理解底层化学语法和分子结构,然后可以迁移到各种下游任务。去噪目标是SSL的另一种形式,模型被训练从损坏或“嘈杂”的版本重建原始、干净的输入。
多任务学习(MTL)
多任务学习(MTL)是一种强大的范式,它利用多个相关学习任务中的共享信息来提高泛化性和整体性能。通过在几个任务上同时训练单个模型,它被迫学习对所有任务有益的共同模式和表征。这种方法可以概念化为机器模仿人类学习,从一个任务获得的知识可以有效地有益并提高其他相关任务的性能。MTL在分子预测任务中特别有利,因为它通过允许模型从多样化但相关的数据集中汲取优势来帮助缓解数据稀疏性问题,从而提高准确性。Text+ChemT5等模型通过成为多领域、多任务的LM,同时处理化学和自然语言,体现了这一点。它们通过在这些不同领域和任务之间共享权重,培养统一的理解来实现这一目标。类似地,nach0-pc是一个专为3D分子结构设计的多任务LM,展示了其在多任务框架内有效处理复杂点云数据的能力。
检索增强生成(RAG)
检索增强生成(RAG)通过整合一个潜在检索器来增强语言模型,该检索器在预训练、微调和推理期间动态访问外部文档。在化学中,这种模块化架构提高了分子设计、逆合成分析和反应预测等任务的性能,据报道比标准推理提升高达17.4%。它还通过将预测建立在最新的领域特定数据上来减少幻觉。然而,传统的RAG常常忽略检索到的文档之间的结构依赖性。ATLANTIC等模型通过构建异构文档图并使用冻结的GNN进行上下文编码来解决这个问题,从而在保持计算效率的同时提高检索质量。
监督微调
监督微调使用带标签的数据集使预训练的CLM适应特定任务。它通过基于梯度的持续优化使模型输出与实验注释对齐,支持性质预测、反应分类和合成规划等应用。虽然全模型微调通常能产生强大的性能,但在低资源设置中可能计算密集且容易过拟合。为了缓解这些问题,出现了几种参数高效的替代方案,包括适配器调优、前缀调优、提示调优和LoRA(低秩自适应),它们在保持任务适应性的同时限制了可训练参数的数量。这些方法提供了可扩展的替代方案,保留了大规
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号