编辑推荐:
该综述聚焦深度学习(DL)在基因表达预测领域的应用,探讨序列到表达(S2E)模型的原理、训练数据类型及不同方法优劣势,涉及卷积神经网络(CNNs)、transformer 架构等,还讨论其在解析调控逻辑、预测非编码变异等方面的进展与挑战。
基因表达调控受启动子、增强子等 DNA 元件及转录因子(TF)控制,其复杂组合逻辑使构建从 DNA 序列预测基因活性的计算模型颇具挑战。深度学习技术的发展为解决这一难题带来突破,特别是序列到表达(S2E)模型,能仅通过 DNA 序列预测基因表达水平,在预测非编码变异影响、揭示基因调控分子机制及设计合成调控元件等方面前景广阔。
深度学习在基因调控中的应用
传统机器学习方法依赖 DNA 序列的预提取特征(如 k-mer 计数),缺乏关键位置信息(如转录因子结合位点间距)。而深度学习通过多层操作直接处理长基因组序列,能捕捉复杂、层次化和非线性模式,在 S2E 建模中实现突破。S2E 模型以 DNA 序列为输入,可预测与序列相关的转录活性测量值,如 RNA 测序(RNA-seq)或表观基因组 mapping 数据(如染色质免疫沉淀测序(ChIP–seq)、转座酶可及染色质测序(ATAC–seq))。不过,当前 S2E 模型有根本局限,即无证据表明其能在训练数据未涵盖的细胞类型和条件下做出可靠预测。
模型架构设计对准确预测至关重要。鉴于 DNA 序列的序列性质,最常见的架构是卷积神经网络(CNNs)和 transformers。CNNs 具有层次化架构,适合检测和组合多个层次尺度的特征,其核心组件是卷积层,通过卷积核与序列子集的点积运算扫描输入序列以寻找基序匹配。transformer 架构利用自注意力机制处理长距离依赖,能捕捉序列中元素的重要性权重,常与 CNN 结合形成混合架构。例如,Enformer 作为首批成功应用 transformers 的 S2E 模型,可处理长达 196 kb 的序列,虽后续分析表明其预测信号多来自近端区域,但仍在预测增强子方面有一定成效,其继任者 Borzoi 输入尺寸更大,能同时整合转录起始、终止和剪接,提升了基因表达水平相关任务的性能。不过,transformers 计算和内存复杂度高,在基于短序列实验数据(如大规模平行报告分析(MPRA))训练时,CNN 模型表现更优。
从单一特征到多任务模型
训练深度学习模型的基因调控数据类型多样,包括转录活性和 mRNA 丰度的直接测量值,以及表观基因组 mapping 数据(如 TF 结合、调控元件活性、染色质状态)。MPRA 直接测试大量短 DNA 片段的调控活性,为模型训练提供了不同类型的数据。
早期研究尝试用全基因组基因表达测量值训练 S2E 模型,如在酵母中利用约 4,000 种不同实验条件的 mRNA 表达数据,CNN 模型能较准确预测中位 mRNA 水平,但在预测细胞类型特异性表达模式上存在困难。以调控元件的全基因组图谱(如增强子、启动子)为基础的深度学习建模也有进展,CNNs 基于 ChIP–seq 数据可准确预测 TF 结合模式,基于 ATAC–seq 数据能分类推定的调控元件。
多任务学习通过在单个模型中同时训练多个相关任务(如多细胞类型的基因活性、多种表观基因组数据)来提升模型性能,其原理是利用任务间的部分相似性促进更有效的学习。例如,结合多种实验数据和多组织、细胞类型数据构建的综合模型,展现出强大的预测能力。但多任务模型也存在争议,其较大的模型规模可能使其高预测能力源于可拟合的大量参数,而非更准确捕捉生物机制,且在细胞类型特异性数据上可能表现不佳。迁移学习则通过先在大型相关数据集上训练模型,再针对特定任务进行微调,可提高模型准确性和训练速度。
MPRA 数据直接测量短 DNA 序列的调控活性,有助于推断局部调控语法,但受限于短序列长度,难以建模调控元件间的长距离相互作用,且大规模 MPRA 目前仅限于培养细胞。不同 MPRA 设计(如 SuRE、STARR-seq)各有特点,基于 MPRA 数据训练的模型(如 DeepSTARR、DeepLiver)在解析调控逻辑和设计合成调控元件方面取得了一定成果。
打开深度学习模型的 “黑箱”
解释 S2E 模型可获取调控序列的关键信息,如识别关键转录因子结合位点(TFBS)基序及特定功能的序列背景。模型解释方法主要包括归因方法、剖析序列上下文规则、可解释模型和替代模型。
归因方法用于评估序列中单个核苷酸对预测输出的重要性,常见方法有计算机饱和突变(ISM)和反向传播法。ISM 通过对输入序列进行单核苷酸突变并查询模型预测效应来生成归因图,可揭示基序在特定序列上下文中的功能,但计算成本高。反向传播法则通过计算模型输出对输入的偏导数获取归因图,计算效率更高但噪声较大。TF-MoDISco 等算法可聚合多个序列的基序,帮助识别已知和新型调控基序。
剖析序列上下文规则通过设计特定序列预测其活性,模拟体内实验以揭示调控逻辑,如通过插入两个基序并改变间距,可揭示基序协同作用的最佳间距。可解释模型(如 ExplaiNN)结合深度学习的预测能力和线性模型的可解释性,通过线性组合卷积层输出预测 TF 结合和增强子活性,其系数可直接解释为 TF 对预测的影响。替代模型(如 SQUID 框架)则用简单模型近似训练好的深度学习模型,以提高模型解释性。
可扩展的独立验证策略
S2E 模型的验证需要在各种条件下对性能和鲁棒性进行全面评估。表达数量性状位点(eQTL)数据库常用于评估模型预测能力,但受连锁不平衡限制,难以精确定位因果变异。MPRA 作为可扩展的实验工具,可测试数十万序列,为模型验证提供了有效手段。其他验证方法如螺旋酶辅助突变、CRISPR 干扰(CRISPRi)、Targeted Perturb-seq 等,可在不同层面验证模型预测。
S2E 模型应用的最新进展
S2E 模型在解析顺式调控逻辑方面成果显著,如 BPNet 揭示了基序间距对 TF 协同作用的影响,后续研究进一步发现短串联重复可促进 TF 结合,局部序列可解释转录起始活性及定位,增强子区域的序列规则也通过 S2E 模型得到深入研究。
在预测非编码变异影响方面,S2E 模型可预测 GWAS 中 SNP 的效应,帮助优先排序和精细定位 GWAS 变异,但在预测个体间变异效应方向上存在不足,训练基于个性化基因组的模型可能是解决之道。此外,S2E 模型在跨物种预测增强子活性方面表现良好,可用于探索增强子进化的功能保守性。
在设计合成调控元件方面,利用 S2E 模型通过计算机进化等方法可设计出具有特定功能的合成序列,这些序列在生物技术和基因治疗中具有应用潜力。
结论与未来展望
深度学习在解决 S2E 挑战方面成果丰硕,但在捕捉长距离调控相互作用等方面仍面临挑战。将基因组原理和生物约束纳入模型架构(如 AlphaFold 整合生物物理特性)可能提升模型性能。基因组语言模型(gLMs)虽在编码序列预测中成功,但在调控基因组任务中的应用潜力尚待挖掘。增加训练数据的多样性(如基因组序列与合成序列结合)可能改善模型性能。未来,S2E 模型需在跨细胞类型预测、整合 TF 丰度和翻译后修饰数据等方面取得进展,同时需通过独立方法严格验证模型预测,以推动其在个性化医疗和生物技术中的应用。