《Nature Methods》:A scalable approach to investigating sequence-to-function predictions from personal genomes
编辑推荐:
序列到功能(sequence-to-function,S2F)模型能够评估任意DNA序列,但其在充分捕捉个体间基因表达差异方面仍存在困难。研究人员提出了SAGE-net,这是一个利用个人基因组训练和评估S2F模型的可扩展框架。尽管基于个人基因组的训练提高了对留
序列到功能(sequence-to-function,S2F)模型能够评估任意DNA序列,但其在充分捕捉个体间基因表达差异方面仍存在困难。研究人员提出了SAGE-net,这是一个利用个人基因组训练和评估S2F模型的可扩展框架。尽管基于个人基因组的训练提高了对留出个体(held-out individuals)基因表达的预测准确性,但性能提升主要来源于对预测性变异的识别,而非学习一种可跨位点泛化的cis调控语法。可扩展的软件对于推动面向个人基因组学的S2F模型发展至关重要。
这篇发表于《Nature Methods》的论文围绕序列到功能(sequence-to-function,S2F)深度学习模型在个人基因组场景中的适用性展开。S2F模型近年被广泛用于从基因组DNA序列预测细胞类型特异性的调控功能,其重要优势在于不依赖传统群体遗传学对大样本关联分析的要求,而是尝试直接从序列中学习基因调控机制,并进一步解释遗传变异如何影响分子表型。然而,既往仅基于单一参考基因组训练的参考型S2F模型(reference-S2F)虽然能够较好刻画不同基因之间的平均表达差异,却难以准确预测不同个体之间由遗传差异驱动的表达变化。这一局限说明,现有模型对跨个体变异相关的精细cis调控规则掌握不足,因此亟需利用配对的全基因组测序(whole-genome sequencing,WGS)与RNA测序(RNA-seq)队列数据开展更高分辨率训练。同时,该研究领域还受到计算可扩展性不足的制约,阻碍了模型快速迭代与系统评估。
基于这一背景,研究人员开发了SAGE-net(“small and good enough”)框架,以支持在个人基因组上高效训练S2F模型。该框架的核心包括三部分:其一,按需生成(on-the-fly)的个人序列数据集,可直接从变异调用文件构建one-hot编码输入;其二,对比学习(contrastive learning)架构,用于将某个位点的平均表达成分与个体偏离平均值的成分解耦;其三,紧凑型卷积神经网络(convolutional neural network,CNN),以远低于大型模型微调的计算成本获得相近性能。研究首先构建仅用参考基因组训练的r-SAGE-net,再在此基础上建立个人基因组版本p-SAGE-net,用于检验个人基因组训练是否真正增强了对可泛化cis调控语法的学习。
主要技术方法概括:研究使用ROSMAP队列的WGS与皮层RNA-seq数据训练和验证基因表达模型,其中训练/验证/测试个体分别来自859名受试者的随机划分,并使用GTEx皮层数据作为额外外部测试集;DNA甲基化(DNA methylation,DNAm)分析使用ROSMAP中634名个体的450K芯片数据。模型以转录起始位点(transcription start site,TSS)或甲基化探针位点附近序列作为输入,通过卷积网络学习平均信号和个体差异信号;同时结合in silico mutagenesis(ISM)、seqlet提取、基序数据库匹配以及与PrediXcan、Enformer等方法对比评估模型表现。
研究结果可归纳如下。
P-SAGE-net model and its performance on personal gene expression prediction
研究人员首先比较了r-SAGE-net与Enformer对未见基因组位置平均皮层基因表达的预测能力。结果显示,Enformer总体性能更优,但r-SAGE-net在保持较强预测能力的同时,将推理时间降低约70倍,说明紧凑型CNN具备较高的计算效率。随后,研究人员构建p-SAGE-net,并在ROSMAP 859名个体数据上训练和测试,在GTEx 205名个体上进行外部评估。针对按PrediXcan线性遗传力排序的前1,000个基因中的训练基因,p-SAGE-net在未见等位基因上的表现与PrediXcan相当,也与微调Borzoi或Enformer的个人化模型相近。这说明个人基因组训练确实可以提升对已见基因中个体间表达差异的预测能力。
研究人员进一步考察p-SAGE-net是否真正学到了更丰富的cis调控语法。通过ISM分析,在GSTM3等示例中,p-SAGE-net能够捕捉与个体表达差异一致的调控模式,而参考型模型甚至会给出与真实数据方向相反的预测。对于Susie精细定位因果变异附近区域,p-SAGE-net识别到与转录因子HLF相匹配的抑制性基序,并能够反映该变异对基序的破坏;这一模式在r-SAGE-net和Enformer中均未观察到。系统性的seqlet比较还表明,个人基因组训练有助于缓解模型对远端变异利用不足的问题。由此可见,p-SAGE-net在特定位点、特定基因背景下确实增强了对个体相关调控特征的识别。
然而,更严格的检验是模型能否在未见基因上预测未见等位基因。该任务要求模型学得的cis调控语法可同时跨位点和跨个体泛化,是衡量“真正理解序列”的关键标准。结果显示,p-SAGE-net在这一任务上并未成功泛化。研究人员尝试改变模型初始化方式、损失函数、输入序列长度和网络结构,虽然部分修改影响了已见基因上的表现,但均未使模型在未见基因的未见等位基因预测中取得突破。换言之,模型性能提升主要体现为在已知基因环境中识别有效变异,而不是学得了可迁移的普适调控语法。
P-SAGE-net performance across experimental conditions and molecular modalities
研究人员观察到,p-SAGE-net在跨基因平均表达预测上反而劣于r-SAGE-net,提示个人基因组训练过程中可能遗忘了原本可跨基因泛化的调控规则。进一步按训练轮次分析发现,随着epoch增加,未见基因平均表达预测性能持续下降,支持模型对训练基因过拟合的判断。
利用SAGE-net按需构建个人序列输入的特性,研究人员进一步分析了不同最小等位基因频率(minor allele frequency,MAF)变异对性能的影响。无论在前1,000个基因集合还是较低排序的4,000–5,000基因集合中,低频变异(MAF < 0.05)对模型预测贡献都较小;同时,不同统计遗传力范围的基因集合表现出不同性能模式。将模型评估限定为仅使用单核苷酸变异(single-nucleotide variant,SNV)时,高遗传力基因集合出现轻度性能下降,而低排序基因集合影响不明显。
关于样本量需求,前1,000个基因集合在约400名训练个体后性能趋于平台,而4,000–5,000基因集合则随训练样本增加而更缓慢提升,提示较“困难”的基因需要更大规模的数据,才能捕获驱动个体差异的较弱且更分散的调控因素。研究人员原本设想,增加训练基因数可为学习可泛化调控语法提供更多样本,但无论按PrediXcan排序逐步加入,还是随机加入更多基因,核心小基因集上的性能均下降,即便提升模型容量也未逆转这一趋势。这一结果进一步证明,模型并未随着训练数据扩展而学到更通用的调控规则。
在更简单的分子表型层面,研究人员将p-SAGE-net推广至DNAm预测。参考训练模型在跨区域平均DNAm预测上表现良好,但在个体间差异预测上同样难以正确判断遗传效应方向,与基因表达分析中的现象一致。随后,利用个人DNAm训练后,p-SAGE-net在已见区域的逐区域相关性显著提升,但随着训练区域集增大,已见区域性能有所下降,这与基因表达任务的趋势相似。关键差异在于,对未见个体和未见区域的DNAm预测中,随着训练区域数增加,p-SAGE-net的泛化能力得到改善,并显著优于r-SAGE-net。全局归因分析显示,在足够序列多样性支持下,模型开始捕捉与个体间DNAm变化相关的微妙序列模式。这说明,相比基因表达这一更复杂的表型,DNAm可能更适合作为个人基因组S2F建模的切入点。
讨论部分表明,本研究最重要的结论是:当前个人序列到表达(personal-sequence-to-expression)建模的核心瓶颈并非单纯缺少个人基因组训练,而是模型尚不能将所学规律泛化到未见基因。个人基因组训练确实能提升已见基因上的个体表达预测,但这种提升主要来自识别训练分布内的预测性变异,而不是获得可跨位点迁移的cis调控语法。与此同时,在表观基因组数据特别是DNAm任务中,个人基因组训练展示出更有前景的泛化潜力。研究人员据此认为,未来可通过随机DNA序列预训练,以及整合WGS、RNA-seq与表观基因组多模态数据,推动对个体间表达差异形成机制的更全面理解。
研究结论部分可译为:总之,研究结果揭示了与个人序列到表达建模工作普遍相关的关键局限性,即模型无法泛化到未见基因;同时也显示出其在表观基因组数据背景下的积极前景。研究人员认为,基于随机DNA序列的预训练以及将表观基因组数据模态与WGS和RNA-seq整合,是迈向更全面理解个体间表达差异的有希望方向。尽管深度学习模型在基因表达预测准确性方面尚未超越PrediXcan等线性方法,但这更应被视为工具、架构与训练范式仍在演进的过渡阶段,而非对深度模型路线的否定。深度模型的核心优势在于能够评估任意DNA序列,包括罕见变异与de novo变异,并能在多样化基因组背景中进行分析;这一能力对于超越已充分表征的队列和组织、走向更具机制性的基于序列的基因调控理解至关重要。