开发通用人工智能模型整合多组学数据与基因组知识以揭示基因调控机制

《Nucleic Acids Research》:Developing a general AI model for integrating diverse genomic modalities and comprehensive genomic knowledge

【字体: 时间:2025年11月25日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本研究针对当前基因组学预测模型任务单一、难以整合多模态数据的瓶颈,开发了一种能够同时预测染色质可及性、转录因子结合、组蛋白修饰、新生RNA转录及三维基因组结构的通用AI模型。该模型采用多任务架构,仅需ATAC-seq和DNA序列作为输入,即可准确预测多种基因组模态,并在人类和小鼠物种中均展现出优异的跨细胞类型泛化能力,为理解基因调控机制提供了强大工具。

  
在基因组学研究的快速发展中,科学家们面临着海量多组学数据整合的挑战。随着下一代测序技术的进步,研究人员能够获得包括基因组、表观基因组和转录组在内的多种数据类型,如ATAC-seq(测定染色质可及性)、ChIP-seq(识别组蛋白修饰和转录因子结合)以及RNA-seq和GRO-seq(评估RNA丰度和转录活性)等。这些互补的数据源为开发能够整合不同生物学背景见解的计算模型提供了独特机会,以理解人类基因组中复杂的调控功能。
然而,现有的计算方法存在明显局限性。多数预测模型要么采用多任务架构对几种模态进行联合预测,要么利用预训练和微调技术为不同下游任务训练各种模型。这些多任务预测模型通常只能获取有限基因组任务的信息,而预训练模型则需要为不同任务单独微调单个模型。因此,这些模型难以在单一统一框架内整合多样化的基因组知识。开发一个能够同时考虑不同基因组模态、在统一模型中嵌入全面基因组知识的通用人工智能(AI)模型,成为该领域的一个重要空白。
为了填补这一空白,密歇根大学的研究团队在《Nucleic Acids Research》上发表了他们的最新研究成果,开发了一个通用AI模型,采用多任务架构联合预测多样化的基因组模态。该模型通过利用来自大量细胞系和组织的丰富数据集,嵌入了全面的基因组知识,包括综合性ChIP-seq数据集、高分辨率3D染色质组织图,以及基因组功能的直接输出(即新生和成熟RNA)。
该模型的核心架构包含三个关键组件:任务共享的局部编码器、任务共享的全局编码器和任务特定的预测头。模型输入包括600kb的DNA序列及相应的ATAC-seq数据。研究人员将600kb序列分割成1kb的基因组区间,每个1kb区间用上游和下游300bp序列作为侧翼区域进行填充。局部编码器首先处理这些区间以提取局部序列特征,然后通过多头全局注意力池化层生成每个1kb基因组区间的局部序列表示向量。这些局部序列表示随后由全局编码器处理,该编码器包含卷积层和七个变换器编码器层,用于建模整个600kb区域的长程依赖关系。
为了有效训练所提出的通用模型以适应多样化的基因组模态,研究团队实施了三种策略:任务调度、任务加权和部分标签学习。在任务调度方面,他们采用了课程学习方法,根据预定课程逐渐将不同的基因组模态引入训练中。训练从主要依赖局部序列信息的任务开始,逐步过渡到需要长程交互信息的任务。
主要技术方法包括:使用多任务架构整合局部和全局编码器处理ATAC-seq和DNA序列输入;采用课程学习策略逐步引入不同基因组模态;利用迁移学习将人类模型适配到小鼠物种;通过Siamese网络结构分析非编码变异功能;结合CRISPR扰动数据和单细胞多组学数据(scATAC-seq和scRNA-seq)验证模型预测能力。
通用模型在多任务学习中嵌入全面且可泛化的知识
研究人员开发了一个通用AI模型,在多任务架构中整合了广泛的基因组数据。与之前的多任务模型相比,该通用模型能够同时预测更全面、更广泛的基因组模态集合。它包括超过1000个转录因子、11种常见分析的组蛋白标记、常见mRNA检测方法(如CAGE-seq和RNA-seq)、新生RNA检测方法(如GRO-seq、Bru-seq和TT-seq)以及高分辨率3D染色质接触图(如Intact Hi-C和Micro-C),涵盖了多种细胞和组织类型。
该通用模型有效学习通用和通用的序列表示,这与之前采用单独微调模型处理单个任务的预训练模型不同。为了评估训练效果,研究人员将其与基于EPCOT框架训练的任务特定模型进行了比较。在许多预测任务中,该模型的表现与任务特定模型相当或更好,在RNA-seq预测方面有显著改进。
通用模型准确预测细胞类型特异的新生RNA信号,包括增强子RNA
转录是基因表达控制的第一层,是染色质水平上表观基因组和基因组调控的直接结果。新生RNA测序分析(如GRO/PRO-seq、Bru-seq和TT-seq)可以准确测量转录。来自非编码调控区域(如增强子RNA)的转录信号也与这些元件的功能和活性高度相关。
该通用模型预测新生RNA(如GRO-seq和GRO-cap)的能力是一个关键但目前缺失的预测任务。此外,该模型使用ATAC-seq数据作为输入,能够预测未见过的细胞和组织中测量新生RNA的多种实验分析方法。在基因水平上,模型在五个未见细胞系中预测Bru-seq数据表现出色,即使其中三个细胞系(Caco2、Calu3和A673)在ENCODE中缺乏可用的ATAC-seq图谱,研究人员使用ENCODE中的伪批量snATAC-seq数据作为输入,模型的表现优于基线。
在增强子区域,研究人员在批量、伪批量(单细胞簇)和组织水平分别评估了eRNA预测。在批量水平上,跨GRO-seq、Bru-seq、BruUV-seq、TT-seq和NET-CAGE数据集,该模型在候选增强子区域的表现优于基线平均信号。通过整合高分辨率染色质接触图(H3K27ac HiChIP和Hi-C),该模型还显示出将转录的增强子区域与邻近基因连接的潜力。
通用模型在细胞类型特异性背景下表征非编码区域的功能
基因组的非编码区域包含各种对基因调控至关重要的调控元件。尽管已经提出了多种计算方法来研究非编码元件的功能,但大多数这些方法是仅依赖DNA序列的基于序列的模型,并从有限数量的基因组模态中获取基因组知识。
研究人员首先应用通用模型评估非编码变异是否在特定细胞或组织背景中功能性调控靶基因。考虑到与开放染色质区域重叠的eQTLs更可能是功能性调控变异,他们评估了模型区分这些功能性eQTLs与其他非编码变异的能力。与基于序列的模型(如Enformer和Borzoi)不同,通用模型整合了细胞类型特异性的批量ATAC-seq或伪批量scATAC-seq数据,允许在新的细胞背景中评估eQTL分类性能。
此外,研究人员评估了模型在预测非编码元件调控功能方面的效用。他们利用了一项lentiMPRA研究,该研究测量了K562、HepG2和WTC11细胞中多个元件的调控活性。由于lentiMPRA研究中仅涉及短序列,他们仅对通用模型的局部编码器进行微调,添加卷积层和线性层来预测元件两条链上的调控分数。
此外,研究人员使用K562的CRISPR扰动数据验证了通用模型在识别增强子-基因调控对方面的有效性,并与最先进的方法ENCODE-rE2G进行了比较。通用模型仅需要ATAC-seq数据作为输入,使其在概念上与ENCODE-rE2G相似,促使研究人员研究其改进潜力。
将通用人类模型转移到能准确预测多种基因组模态的小鼠模型
生物医学研究经常利用小鼠模型来理解人类生物学,因为两个物种在基因组上具有高度相似性。尽管存在这些相似性,但关键的表现遗传和调控差异限制了将人类模型直接应用于小鼠研究。
为了实现这一目标,研究人员调整并微调了人类模型,为小鼠创建了一个通用模型,将来自各种细胞和组织的小鼠实验数据纳入训练,包括ChIP-seq、RNA-seq、CAGE-seq、PRO-seq、GRO-seq、NET-CAGE、Hi-C和Micro-C染色质接触图。此外,他们还加入了区域捕获Micro-C(RCMC)数据,该数据提供了比全基因组Micro-C接触图更详细的染色质接触信息,但仅覆盖五个基因座约5Mb的区域。
小鼠通用模型在预测这些多样化的基因组模态方面实现了高精度。研究人员首先评估了其预测高分辨率RCMC数据的能力。考虑到有限的数据可用性,他们建立了两个基线:在整个人类通用模型上对RCMC数据进行微调,以及使用线性探测在固定人类模型上训练线性预测层。在留出测试区域中,通用模型在Pearson和Spearman相关性方面优于微调和线性探测。
阐明小鼠内耳研究中的细胞类型特异性表观基因组调控
为了检验模型是否允许我们探索体内细胞类型特异性转录调控,研究人员将小鼠通用模型应用于从小鼠内耳研究生成的数据集。该研究调查了听觉毛细胞的调控景观,并从出生后第2天的小鼠耳蜗管生成了两个年龄匹配的数据集(一个scATAC-seq和一个scRNA-seq)。
作为第一项任务,研究人员根据细胞类型注释将scATAC-seq细胞聚集成六个伪批量谱,然后评估通用模型预测的RNA谱是否能够充分区分细胞类型特异性表达模式。他们观察到,对于每个实验细胞类型,与预测的相应scATAC-seq细胞类型表达观察到的相关性最高。
为了进一步评估模型的效用,研究人员使用出生后第2天小鼠内耳HC和柱状细胞/戴特斯细胞(PC/DC)的ATAC-seq数据作为输入,预测了Atoh1基因座的RCMC接触图和组蛋白标记(H3K4me1和H3K27ac)。该基因座最近的一项研究进行了深入调查,该研究确定了在毛细胞中与Atoh1相关的三个增强子。预测的组蛋白标记H3K4me1和H3K27ac在所有三个增强子区域表现出强信号,预测的O/E标准化接触图揭示了Atoh1转录起始位点与感觉HC中与Atoh1相关的增强子之间的清晰接触模式。
研究结论与意义
本研究开发了一个使用多任务架构的通用AI模型,在单一模型中整合了多样化的基因组知识,通过在广泛的基因组测序数据集集合上进行训练。该模型富含广泛的表观基因组特征和实验分析方法,包括mRNA、新生RNA、超高分辨率染色质组织和增强子活性,涵盖多种细胞和组织。
该模型准确预测了各种类型的新生RNA分析方法,为转录分析提供了强大工具。通过整合ATAC-seq数据,该模型能够预测单细胞伪批量和组织数据中的新生RNA谱,这些数据中的实验测量通常难以获得。这种能力使该模型能够作为跨基因和增强子区域转录分析的计算替代品。
预测小鼠物种中多样化的基因组模态对于理解小鼠特异性调控机制至关重要。研究人员将通用人类模型进行调整,开发了第一个用于小鼠物种的通用模型,该模型可以从ATAC-seq数据预测多样化的基因组模态,并泛化到未见过的细胞和组织。通用模型训练技术在区域捕获Micro-C数据上也表现出卓越的性能,这些数据仅限于少量基因组区域。
这项研究的意义在于它解决了基因组学领域的一个重要挑战:如何整合多样化的多组学数据到一个统一的预测框架中。与需要为每个任务单独训练模型的传统方法不同,这个通用AI模型能够同时预测多种基因组模态,仅需要ATAC-seq和DNA序列作为输入。这种整合方法不仅提高了预测效率,还增强了模型在不同细胞类型和组织间的泛化能力。
该模型在准确预测新生RNA信号方面的能力特别值得关注,因为它提供了对转录过程的直接洞察,这是基因表达调控的关键层面。此外,模型在识别非编码区域功能、预测增强子-基因相互作用以及跨物种应用方面的强大表现,为理解基因调控机制提供了新的工具和视角。
研究人员成功将人类模型转移到小鼠物种,创建了第一个能够预测多样化基因组模态的小鼠通用模型,这为利用小鼠模型研究人类生物学提供了重要工具。模型在小鼠内耳研究中的应用案例进一步证明了其在解析细胞类型特异性表观基因组调控方面的实用价值。
总的来说,这项研究代表了向更全面理解物种特异性基因组调控迈出的重要一步,推动了人类和小鼠之间的比较研究。未来努力开发其他物种的通用模型可能为不同生物体的进化和功能基因组学提供有价值的见解。该模型框架为基因组学研究提供了强大的计算工具,有望在基础研究和临床应用中都发挥重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号