基于大语言模型嵌入的Scouter方法精准预测基因扰动转录响应

《Nature Computational Science》:Scouter predicts transcriptional responses to genetic perturbations with large language model embeddings

【字体: 时间:2025年12月07日 来源:Nature Computational Science 18.3

编辑推荐:

  本研究针对基因扰动实验通量低、难以覆盖全部基因的瓶颈,开发了基于大语言模型基因嵌入的Scouter算法。该方法通过压缩器-生成器神经网络架构,成功预测了单基因及双基因扰动下的全基因组转录响应,误差较GEARS和biolord降低50%以上,且无需预训练即可在标准硬件运行,为系统性解析基因调控网络提供了高效计算工具。

  
在生命科学领域,基因扰动实验犹如一把精准的"基因手术刀",能够通过敲除、增强或抑制特定基因,观察其对整个基因网络的影响。这类实验对于揭示基因功能、解析疾病机制具有不可替代的价值。然而,传统实验方法面临着一个严峻挑战:由于成本高昂和技术限制,科学家们往往只能对少数基因进行扰动,而人类基因组中数以万计的基因相互作用网络却如同宇宙星辰般浩瀚无垠。
面对这一困境,计算生物学提供了新的解决思路。如果能够建立准确的预测模型,就可以根据有限的实验数据,"推算"出其他未实验基因的扰动效果。这就像通过观察几颗星星的运行轨迹,来推测整个星系的运动规律。但这一任务极具挑战性,因为模型需要从单一的基因标识符(如"TP53"或"CDKN1A"这样的基因名)预测出成千上万个基因的表达变化。
现有的计算方法,如GEARS和biolord,主要依赖于基因本体论(Gene Ontology, GO)图数据库。这些方法将基因表示为GO图中的节点,通过共享的GO术语来建立基因间的关联。然而,GO图存在明显的局限性:首先,它非常稀疏,大多数基因对之间没有共享的GO术语;其次,许多基因尚未被GO数据库收录,导致这些基因的扰动效果无法预测;此外,基于图神经网络的方法通常需要专门的硬件和复杂的训练过程。
为了突破这些限制,美国圣母大学应用与计算数学与统计系的Ouyang Zhu和Jun Li开发了一种名为Scouter的新方法。该方法创新性地利用大语言模型(LLM)生成的基因嵌入,结合轻量级的压缩器-生成器神经网络架构,实现了对基因扰动转录响应的精准预测。
Scouter的核心创新在于使用ChatGPT的"text-embedding-ada-002"模型生成的基因嵌入。这些嵌入向量长达1,536维,基于美国国家生物技术信息中心(NCBI)的基因文本描述生成,包含了丰富的基因功能、调控和结构信息。与稀疏的GO图表示相比,这种密集的向量表示能够更全面地捕捉基因间的复杂关系。
在技术方法上,研究人员主要采用了以下几个关键策略:首先,利用预训练的GenePT模型获取基因的LLM嵌入,这些嵌入在训练过程中保持固定;其次,设计压缩器-生成器网络架构,其中压缩器将控制细胞的基因表达谱压缩为低维细胞状态,生成器则将该状态与基因嵌入结合,预测扰动后的表达谱;第三,采用随机配对策略,从控制细胞和扰动细胞中随机选择样本对进行训练,显著增加了训练数据量;最后,使用自聚焦方向感知损失函数进行模型优化,该函数同时考虑表达量预测误差和表达变化方向的一致性。
研究团队在五个经典的Perturb-seq数据集上对Scouter进行了全面评估,包括Dixit、Adamson、Norman、Replogle K562和Replogle RPE1数据集。这些数据集涵盖了不同细胞类型和扰动规模,从仅包含20个单基因扰动的小数据集到包含超过1,500个扰动的大规模数据集。
预测性能显著提升
在单基因扰动预测方面,Scouter在所有五个数据集上均表现出色。与GEARS和biolord相比,Scouter的归一化均方误差(MSE)和1-皮尔逊相关系数(1-PCC)平均降低了约50%。具体而言,Scouter的MSE仅为biolord的48.9%,为GEARS的51.0%;1-PCC值为biolord的56.0%,为GEARS的54.1%。这一结果表明Scouter在预测准确性和一致性方面均有显著提升。
突破GO图覆盖限制
Scouter的一个突出优势是能够预测GO图中未收录基因的扰动效果。以TIMM23基因为例,该基因不在GO图中,因此GEARS和biolord无法对其扰动效果进行预测。而Scouter基于该基因的文本描述生成的嵌入,成功预测了其扰动后的转录响应,为研究"孤儿基因"的功能提供了新途径。
双基因扰动预测能力
对于同时扰动两个基因的复杂情况,Scouter通过将两个基因的嵌入向量相加作为输入,实现了对协同扰动效应的预测。在Norman数据集上,Scouter对双基因扰动的预测误差显著低于对比方法,MSE和1-PCC值分别仅为GEARS的34.7%和21.2-22.6%。特别是在预测ETS2和IKZF3双基因扰动时,Scouter不仅准确预测了表达变化幅度,还正确捕捉了变化方向,而对比方法在变化方向上出现大量错误。
计算效率优势
Scouter在计算资源需求方面也具有明显优势。即使在最大的数据集(RPE1,包含175,398个细胞和1,543个扰动)上,Scouter在GPU上的训练时间也仅为24分钟,内存占用为922MB。相比之下,GEARS需要114分钟和1,366MB内存。Scouter的轻量级设计使其能够在标准硬件(如消费级GPU甚至CPU)上高效运行,大大降低了使用门槛。
与基础模型的比较
研究人员还将Scouter与基于预训练基因表达基础模型的方法(如scGPT、scELMo和scFoundation)进行了比较。结果显示,Scouter在预测准确性上显著优于这些需要大量预训练的模型,同时在计算效率和使用便捷性方面更具优势。
Scouter的成功源于几个关键因素的协同作用:高质量的LLM基因嵌入提供了丰富的先验知识;压缩器-生成器架构有效利用了嵌入信息;随机配对训练策略解决了小样本学习问题。值得注意的是,当研究人员将LLM嵌入替换GEARS和biolord中的GO图表示时,这些方法的改进有限,说明Scouter的架构设计对其性能提升至关重要。
该研究的结论部分强调,Scouter为基因扰动转录响应预测提供了一种准确、高效且易于使用的新范式。它不仅克服了现有方法对GO图的依赖,还展示了大语言模型在计算生物学中的巨大潜力。随着生物医学数据的不断积累和AI技术的持续发展,像Scouter这样的计算方法将在系统生物学、疾病机制研究和药物开发中发挥越来越重要的作用。
未来,研究人员计划进一步扩展Scouter的能力,包括整合细胞类型特异性基因嵌入、开发跨条件预测功能,以及探索更复杂的遗传相互作用网络。这些发展将推动我们向全面理解基因调控网络的目标迈出重要一步,最终实现从基因序列到表型的精准预测。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号