基序组合模型精准预测细胞类型特异性远端调控元件
《Nature Communications》:Motif-based models accurately predict cell type-specific distal regulatory elements
【字体:
大
中
小
】
时间:2025年11月25日
来源:Nature Communications 15.7
编辑推荐:
本研究针对DNA序列如何编码细胞类型特异性调控活性的核心难题,开发了名为BOM(Bag-of-Motifs)的计算框架。该框架将远端顺式调控元件表征为转录因子(TF)基序的无序计数,结合梯度提升树模型,在跨物种(小鼠、人、斑马鱼、拟南芥)数据中实现了高精度细胞类型特异性增强子预测,其性能优于复杂深度学习模型。实验验证表明,基于关键基序设计的合成增强子可驱动细胞特异性表达,揭示了远端调控区的高度可预测序列规律,为解析顺式调控语法提供了可扩展工具。
在生命科学领域,理解DNA序列如何指导基因的精准时空表达一直是核心挑战。尤其令人着迷的是,尽管所有细胞共享相同的基因组,但不同类型的细胞却表现出截然不同的身份和功能。这背后的关键调控者之一便是增强子(enhancer)——一段能够远程控制基因表达的DNA序列。然而,这些远端调控元件如同隐藏在基因组中的“密码”,其序列规则高度灵活且依赖细胞环境,使得仅从序列出发预测其活性变得异常困难。传统的序列比对方法在识别功能保守但序列快速演化的增强子时常常失效,而复杂的深度学习模型虽能捕捉长程依赖关系,却往往像“黑箱”一样难以解释,且对计算资源和数据量要求苛刻。发表在《Nature Communications》的这项研究,正是为了破解这一难题,提出了一种既强大又直观的解决方案。
为开展研究,作者团队主要应用了以下几项关键技术:利用单细胞ATAC-seq(snATAC-seq)和批量ATAC-seq等技术从多个物种(包括小鼠胚胎、人类细胞系、斑马鱼、拟南芥等)定义细胞类型特异性的候选顺式调控元件(CRE);使用GimmeMotifs等数据库中的位置权重矩阵(PWM)通过FIMO软件进行转录因子结合基序的扫描与计数;采用XGBoost梯度提升决策树算法构建分类模型,并以SHAP(Shapley Additive Explanations)值进行模型可解释性分析;通过合成增强子(SRE)和荧光素酶报告基因实验对模型预测进行功能验证。
研究人员开发了BOM框架,其核心是将每个远端调控序列表示为一个“基序袋”(Bag-of-Motifs),即忽略基序顺序、方向和间距,仅统计不同转录因子基序的出现次数。这种极简表征与梯度提升树(XGBoost)结合,在区分小鼠胚胎E8.25时期17种细胞类型的特异性染色质可及性区域(CRE)时表现出色,测试集上的平均准确率高达93%,曲线下面积(auROC)达0.98。模型对训练集大小不敏感,即使仅用30个阳性样本也能取得较好效果,并且能有效区分真实的CRE与其侧翼的阴性序列,假阳性率极低。此外,模型在刻画胚胎发育中间状态和跨时间点(E8.25到E8.5)预测时也保持了良好性能,但在识别多效性(pleiotropic)调控元件时表现下降,提示这类元件的活性可能更依赖于染色质环境而非独特的基序组合。
研究团队将BOM与LS-GKM(基于间隔k-mer的支持向量机模型)、DNABERT(基于Transformer的DNA语言模型)和Enformer(混合卷积-Transformer架构)等先进模型进行了系统比较。在相同的二元分类任务中,BOM的平均精确召回曲线下面积(auPR)为0.99,马修斯相关系数(MCC)为0.93,显著优于其他模型。在多分类任务中,BOM也超越了多种卷积神经网络(CNN)架构。分析还表明,BOM的性能不受调控元件长度影响,对于超级增强子(super-enhancer)和普通增强子的分类准确率相当。
研究表明,在利用FIMO扫描基序时,采用较宽松的q值阈值(如0.5)比严格阈值(如0.1)能保留更多可能具有生物学意义的低亲和力或非经典基序实例,从而提升模型性能。去除重叠的基序注释反而会降低模型准确性,暗示重叠的基序可能反映了转录因子协同结合等生物学真实情况。
BOM的普适性在人类、斑马鱼、果蝇、拟南芥乃至急性髓系白血病(AML)与健康细胞的对比数据中得到验证。模型在不同物种和生物背景下均能高精度区分细胞类型特异性CRE。例如,在人类血液系统22种细胞类型中,模型平均F1分数达0.90,且不同细胞类型的模型间交叉预测可忽略不计,表明BOM学到了各自独特的顺式调控代码。在果蝇S2细胞中,BOM仅用少量数据即在看家增强子预测上超越了DeepSTARR模型。
一个关键发现是,基于小鼠心肌细胞或红系细胞CRE训练的BOM模型,能够准确预测人类胎儿中同类型细胞的特异性CRE,即使绝大多数正确预测的CRE无法通过传统的基因组比对工具(如liftOver)在小鼠和人类基因组之间找到同源序列。即使降低比对严格性,也只有约30%的CRE能被比对。这强有力地证明,尽管增强子序列本身快速演化,但决定其细胞类型特异性的基序组合规则在物种间是保守的,BOM能够捕捉到这种超越序列一致性的功能约束。
借助SHAP可解释性分析,BOM不仅能预测序列的细胞来源,还能量化每个基序对特定预测的贡献。例如,在小鼠胚胎心肌细胞的三个Nkx2-5基因上游的CRE中,MEF2和SRF等心脏发育关键转录因子的基序被识别为最重要的贡献者,但其在不同CRE中的贡献度各异,提示了协同作用的多样性。将基序重要性与其对应转录因子的单细胞RNA测序(scRNA-seq)表达数据关联,发现高重要性基序通常对应谱系特异性转录因子,如心肌细胞中的MEF2C、NKX2-5,内皮细胞中的FLII、JUN/FOS家族成员等,验证了模型预测的生物学合理性。
BOM基序利用合成调控元件指导人类细胞类型特异性表达
为实验验证BOM的预测,研究者选取了对人类HepG2(肝细胞)和GM12878(淋巴母细胞)预测最重要的五个基序,将它们以随机顺序和位置插入到一个共同的肌肉增强子模板中,构建了合成调控元件(SRE)。报告基因实验显示,含有HepG2特征基序的SRE在HepG2细胞中的表达显著高于在GM12878细胞中,而含有GM12878基序的SRE则呈现相反模式。值得注意的是,即使包含相同基序集合,不同SRE的活性也存在巨大差异(3至83倍),表明基序的排列方式(方向、间距、顺序)对增强子强度有重要调控作用,而基序的身份则主要决定了细胞类型特异性。
综上所述,这项研究揭示了远端调控序列中蕴含的、主要由转录因子基序组合构成的、高度可预测的细胞类型特异性代码。BOM框架以其简洁性、高精度、强可解释性和跨物种适用性,为解析复杂的顺式调控逻辑提供了强大工具。该研究证实,尽管增强子序列演化迅速,但其功能性的基序“词汇”在物种间具有保守性。研究不仅深化了对基因调控原理的理解,也为基于序列的增强子理性设计和疾病相关非编码变异的解读开辟了新的途径。当然,该模型也存在局限,例如对多效性元件的预测能力较弱,且未考虑染色质高阶结构或已知基序库之外的序列信息。未来,将基序语法规则与BOM的组合预测能力相结合,将是完全破译基因调控密码的下一个前沿。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号