
-
生物通官微
陪你抓住生命科技
跳动的脉搏
深度学习结合UUATAC-seq技术解析脊椎动物调控序列图谱的进化保守性与功能模块
【字体: 大 中 小 】 时间:2025年07月10日 来源:Cell 45.5
编辑推荐:
本研究通过开发超高通量、超灵敏的单核ATAC测序技术UUATAC-seq,绘制了五种代表性脊椎动物的染色质可及性图谱,揭示了基因组大小差异影响调控元件数量而非大小的规律。研究人员构建了深度学习模型NvwaCE,直接从基因组序列预测cis调控元件(cCRE)景观,发现调控语法比核苷酸序列更具保守性,并成功预测合成突变对谱系特异性cCRE功能的影响。该研究为解码脊椎动物调控语言提供了宝贵资源,对理解基因调控的进化机制和疾病相关非编码变异具有重要意义。
基因调控的奥秘一直是生命科学领域的核心问题。在多细胞生物中,尽管所有细胞共享相同的基因组,但它们却展现出高度特化的功能特征,这归功于基因表达的差异调控。然而,脊椎动物基因组中调控序列的完整图谱仍不清晰,特别是跨物种比较研究面临技术瓶颈——传统单细胞ATAC-seq方法存在通量低、灵敏度不足等问题,难以构建高质量的染色质可及性图谱。此外,尽管深度学习在预测蛋白质结构方面取得突破,但在基因组调控领域的应用仍受限于数据质量和规模。
针对这些挑战,浙江大学医学院附属第一医院骨髓移植中心和干细胞与再生医学中心的研究团队开展了一项开创性研究。他们开发了超高通量、超灵敏的单核ATAC测序技术UUATAC-seq,绘制了五种脊椎动物(斑马鱼、蝾螈、壁虎、鸡和小鼠)的高分辨率染色质可及性图谱,并构建了深度学习模型NvwaCE来解析调控序列的进化规律和功能模块。这项重要成果发表在《Cell》杂志上。
研究人员主要采用了四项关键技术:1)UUATAC-seq技术,通过同源转座酶和温度控制适配体转换实现高通量单核染色质可及性分析;2)跨物种比较分析,涵盖基因组大小差异显著的五个脊椎动物;3)NvwaCE深度学习模型,基于ResNeXt架构预测单细胞水平的调控序列;4)功能验证实验,包括CUT&Tag染色质分析和基因编辑验证预测的调控元件。
研究结果部分包含以下重要发现:
"Construction of the UUATAC-seq platform"展示了UUATAC-seq的技术优势。与传统方法相比,该技术使用同源转座酶克服了双适配体转座酶50%产率的限制,通过四轮索引步骤实现超高通量(单次实验可分析584,289个细胞),且无需昂贵设备。混合实验显示碰撞率仅为0.3%-1.2%,每个细胞可检测中位数为22,642-26,085个独特片段(UF),TSS富集分数保持在12以上。
"Benchmark of UUATAC-seq using tissue cells"证实了该技术的优越性能。对41,672个小鼠脑细胞的分析显示,与9种现有snATAC-seq方法相比,UUATAC-seq在UF数量(图2F)、峰数量(图2G)、FRIP(图2H)和DA峰数量(图2I)等指标上均表现最佳。单次实验即可获得584,269个高质量细胞核数据,累计TSS×UF值远超其他方法(图2K)。
"Construction of chromatin accessibility landscapes for vertebrates"报道了五种脊椎动物的调控图谱。研究人员成功绘制了斑马鱼、蝾螈、壁虎、鸡和小鼠的cCRE景观,共获得1,056,752个高质量细胞核数据,平均每个细胞核16,317个UF和18.6的TSS富集分数。跨物种分析发现所有脊椎动物共享主要细胞谱系,包括红细胞、免疫细胞、肝细胞等(图3A-3F)。
"A landscape of cell-type-specific cCREs for vertebrates"揭示了调控序列的进化规律。研究发现基因组大小差异影响cCRE数量而非大小(图4F),开放区域大小集中在~250bp(增强子)和~900bp(启动子)(图4K)。转座元件(TE)在成体基因调控中作用有限(图4I),而调控语法(如CTCF、ETS等结合位点)比核苷酸序列更保守。
"Construction of the NvwaCE model at the single-cell level and landscape scale"介绍了深度学习模型的构建。NvwaCE采用ResNeXt架构,输入500bp DNA序列,通过卷积层和残差模块预测单细胞可及性(图5A)。该模型在预测脊椎动物cCRE景观时AUROC>0.80(图5G),在小鼠中达0.93(图5H),并能准确区分细胞谱系(图5I)。
"NvwaCE interprets conserved regulatory grammar in vertebrate cCREs"展示了模型的跨物种预测能力。小鼠模型可预测80%的斑马鱼、蝾螈等物种cCRE(图6A-6D),并成功预测了人类等7种哺乳动物的染色质可及性景观(图6E)。模型识别的新调控元件中44.89%未被ENCODE收录(图6G),主要来自腺体细胞类型。
"Application of NvwaCE"证明了模型的应用价值。NvwaCE准确预测了361个精细定位变异中265个的功能影响(图7A),包括rs2068888(CYP26A1)和rs34038797(NINJ2)等疾病相关位点。模型还成功预测了HBG1/2启动子区-175T>C等合成突变的效应(图7C),与碱基编辑实验结果高度一致(r=0.95)。
这项研究通过创新技术和方法,系统解析了脊椎动物调控序列的进化规律和功能架构。主要结论包括:1)UUATAC-seq是构建染色质可及性景观的高效工具;2)基因组大小影响调控元件数量而非其基本架构;3)NvwaCE模型揭示调控语法比序列更具保守性;4)模型可准确预测疾病相关非编码变异和合成突变的功能效应。这些发现不仅为理解基因调控的进化机制提供了新视角,也为疾病相关调控变异的解读和基因治疗靶点的设计提供了重要工具。特别值得注意的是,该研究建立的深度学习框架能够从DNA序列直接预测单细胞水平的调控活性,这一突破将大大加速我们对基因组"调控语言"的解码进程。
生物通微信公众号
知名企业招聘