实验室大鼠前额叶皮层Hi-C测序数据的构建及其在三维基因组研究中的应用价值
《Scientific Data》:Hi-C sequencing data from frontal cortex of laboratory rats
【字体:
大
中
小
】
时间:2025年12月05日
来源:Scientific Data 6.9
编辑推荐:
本研究针对大鼠三维基因组结构研究数据的缺乏,利用Hi-C技术对10种不同品系大鼠前额叶皮层进行测序,获得了高质量的染色质空间互作图谱。该数据集为大鼠基因组组装、结构变异检测和基因调控机制研究提供了重要资源,可与其他组学数据整合推动大鼠模型在复杂性状研究中的应用。
在基因组学研究领域,染色质的空间三维结构正日益受到重视。传统基因组学研究主要关注DNA的线性序列信息,然而在细胞核内,染色质通过复杂的折叠和盘绕形成特定的三维构象,这种空间组织方式对基因调控具有至关重要的影响。远距离的调控元件如增强子需要通过染色质环化与靶基因启动子发生物理接触,从而精确控制基因表达。理解染色质的三维结构对于揭示发育、疾病等生命过程的分子机制具有重要意义。
高通量染色体构象捕获(Hi-C)技术是研究三维基因组结构的强大工具。该技术通过交联固定染色质空间结构,利用限制性内切酶切割和连接反应,将空间上邻近的DNA片段连接在一起,再通过高通量测序识别这些相互作用。Hi-C数据不仅可用于构建全基因组范围的染色质互作图谱,还能应用于基因组组装、结构变异检测和染色质环分析等多个领域。
尽管Hi-C技术在小鼠和人类研究中已广泛应用,但在大鼠这一重要模式生物中,高质量的Hi-C数据仍然缺乏。大鼠作为生物医学研究的经典模型,在神经科学、心血管疾病和药物成瘾等研究中具有不可替代的价值。特别是杂交大鼠多样性 panel(HRDP)资源,包含多种近交系和重组近交系,为系统遗传学研究提供了理想平台。然而,大鼠三维基因组数据的缺失限制了研究人员对染色质空间结构与表型变异关系的深入探索。
针对这一问题,由Panjun Kim、Rachel R. Ward、Burt M. Sharp、Robert W. Williams和Hao Chen组成的研究团队在《Scientific Data》上发表了题为"Hi-C sequencing data from frontal cortex of laboratory rats"的数据描述文章。该研究通过对10种不同遗传背景的大鼠品系前额叶皮层组织进行Hi-C测序,构建了高质量的三维基因组数据集,为推进大鼠基因组学研究提供了宝贵资源。
研究方法主要包括样本制备、Hi-C文库构建和数据分析三个关键环节。研究人员从杂交大鼠多样性 panel(HRDP)中选取了10个代表性品系,包括SHR/Olalpcv、BN-Lx/Cub等9个近交系和1个F1杂交系(SHR/Olalpcv × BN/NHsdMcwi)。所有大鼠在标准实验室条件下饲养,未接受任何行为或药物处理,确保数据的基线可靠性。在139天平均年龄时,通过异氟烷过量麻醉实施安乐死,快速取出脑组织并立即冷冻保存。
Hi-C文库制备采用Arima Hi-C+试剂盒方案,每个样本使用约50mg皮层组织。组织在液氮中粉碎后,按照标准流程进行交联、酶切和连接反应。文库构建使用KAPA Hyper Prep试剂盒,在Covaris S2仪器上进行片段化,片段大小通过Agilent Bioanalyzer确认在200-600bp之间。最终文库使用Illumina平台进行双端测序,平均每个样本产生约6.23亿条读长。
数据分析采用Juicer流程(v1.6),以大鼠参考基因组mRatBN7.2/rn7为基准。流程包括三个主要步骤:使用BWA-MEM(v0.7.17)进行读长比对;过滤无效读长(未比对、嵌合模糊读长);去除PCR和光学重复,生成最终的非冗余数据集。在此基础上,生成两种严格度的接触矩阵:inter.hic文件(MapQ≥1)和inter_30.hic文件(MapQ≥30),后者仅包含唯一比对读长,用于下游分析。
数据集通过NIH短读长档案(SRA)公开,登录号为PRJNA1197090。数据分为三组:杂交大鼠多样性 panel重组近交系亲本的4只个体、5个重组近交系和1个F1杂交系。存储格式为fastq.gz的原始测序数据,文件大小从17.5GB到67.3GB不等,满足不同研究需求。
数据质量评估显示,该Hi-C数据集整体质量优异,符合或超过Arima Genomics的基准建议。平均每个样本产生6.23亿个读长对,其中仅1.31%未能比对到参考基因组。可比对读长中,41.30%为正常配对,57.40%为嵌合读长。在嵌合读长中,47.34%可唯一定位,10.06%为模糊比对。去除重复后,63.98%的读长对用于分析,其中77.68%通过MapQ≥30的严格过滤,平均每个样本获得2.97亿个高质量接触对。
进一步分析显示,染色体间接触占17.6%,染色体内接触占82.4%。染色体内接触中,短程相互作用(<20kb)和长程相互作用(>20kb)分别占38.6%和43.8%。这些指标与推荐标准高度吻合:未比对读长低于6%(推荐<6%)、模糊嵌合读长低于20%(推荐<20%)、可比对读长超过80%(推荐>80%)、染色体间接触比例接近20%(推荐~20%),表明数据集适用于三维基因组结构和功能基因组学深入研究。
这项研究提供的Hi-C数据集具有多方面重要意义。首先,它填补了大鼠三维基因组数据的空白,为基因组组装和结构变异检测提供了资源。利用染色质空间接近信息,可以改进contig排序和定向,提高基因组连续性和准确性,特别适用于多倍体物种或单倍型定相。同时,结构变异如缺失、重复、插入、倒位和易位会改变预期的染色质互作模式,这些特征性变化可作为识别变异类型和位置的标志。
其次,数据集有助于解析染色质环化和基因调控机制。染色质环将远端调控元件如增强子与基因启动子拉近,在基因表达调控中发挥核心作用。结构蛋白CTCF和cohesin通过结合特定DNA基序稳定这些相互作用,Hi-C数据可全基因组范围识别这些重要互作。
第三,数据集可与杂交大鼠多样性 panel(HRDP)的其他组学数据整合,实现系统遗传学分析。HRDP包含基因组、转录组和表型数据,支持复杂性状的高分辨率定位和可重复研究。整合Hi-C数据有助于揭示染色质三维结构如何介导遗传变异与表型关联,尤其在行为、生理和疾病研究中。
此外,研究的方法学优化为类似工作提供了参考。通过大量故障排除,确定了最佳组织输入量(50mg)和片段选择方法(双面筛选),避免使用磁力96孔板导致珠子丢失。这些经验对提高Hi-C实验成功率具有实用价值。
综上所述,该研究产生的Hi-C数据集质量高、品系多样、可公开获取,为大鼠基因组学研究提供了重要资源。预计将促进大鼠基因组组装完善、结构变异发现和调控架构解析,并可与其他组学数据整合,推动这一经典模式生物在生物医学研究中的应用。数据集的高质量和技术可靠性使其成为研究三维基因组结构与功能关系的宝贵工具,有望在神经科学、疾病机制和药物开发等领域发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号