编辑推荐:
在真核生物基因组研究中,三维基因组结构对基因调控至关重要。为分析和比较植物 3D 基因组结构,河北农业大学研究人员开发 3D-GDP 数据库。该数据库整合多物种数据,提供多种分析工具,有助于揭示 3D 基因组结构进化及基因调控机制。
在生命科学的神秘领域中,基因组的研究一直是探索生命奥秘的关键路径。对于真核生物而言,基因组并非杂乱无章地分布在细胞核内,而是以高度有序的染色质结构存在。这些结构如同精密的仪器,在时空维度上精准调控着基因的表达。想象一下,基因组就像一本巨大的生命密码本,而染色质结构则是解读这本密码本的关键钥匙。
随着科技的飞速发展,高通量测序技术如同一把神奇的放大镜,让科学家们得以窥探基因组的复杂奥秘。通过染色质构象捕获(3C)技术及其衍生的 Hi-C、ChIA-PET 等多种高通量手段,人们发现基因组在三维空间中形成了诸如 A、B compartments,拓扑相关结构域(TADs)和染色质环等精细结构。这些结构直接参与了增强子与启动子之间的相互作用,与基因的激活和沉默密切相关,在转录调控过程中发挥着举足轻重的作用。
然而,目前的研究面临着一些挑战。虽然已有众多研究聚焦于单个物种的 3D 基因组结构,但不同物种之间染色质结构的比较分析却存在不足。现有的工具和数据库,如 Hi-C Data Browser、WashU Epigenome Browser 等,大多只能对单个物种的 3D 结构进行深入分析和可视化展示,难以实现跨物种的比较研究。这就好比我们拥有了许多单独的拼图碎片,但却无法将它们拼在一起,看清整个生命进化的宏伟画卷。因此,建立一个能够整合和分析跨物种保守 3D 结构的比较基因组数据库迫在眉睫,它对于揭示基因调控的机制和基因组进化的规律至关重要。
为了解开这些谜团,河北农业大学的研究人员勇挑重担,开展了一项具有开创性的研究。他们致力于构建一个多物种比较 3D 基因组数据库 ——3D-GDP(3D-genome database for plants),旨在为植物基因组研究提供一个全面且强大的平台。
研究人员通过不懈努力,成功构建了 3D-GDP 数据库。这个数据库意义非凡,它整合了截至 2024 年 8 月所有公开可用的植物 3D 基因组序列,涵盖了 42 个物种的数据,并对其中 26 个不同分类群的植物物种进行了深入的 3D 基因组分析。这 26 个物种包括裸子植物、基础被子植物、木兰类植物、单子叶植物和双子叶植物等,几乎涵盖了植物进化历程中的各个关键节点。
3D-GDP 数据库具有丰富的功能和内容。它提供了六个功能模块,方便用户进行多样化的查询和分析。“3D Structure” 模块能够模拟和可视化染色质在细胞核内的空间分布,用户可以直观地观察到 Compartment、TAD、基因等的位置信息;“Compartment” 模块用于预测和分析选定物种的基因组 Compartment 结构,并能比较不同物种之间 Compartment 的保守性和特异性;“TAD” 模块不仅可以预测和可视化 TAD 结构,还能识别跨物种的保守 TADs 并预测其功能;“Loop” 模块帮助用户探索基因组内的染色质环结构及其功能;“Blast” 模块允许用户提交自定义基因序列,查找与之匹配的 TADs;“JBrowse” 模块则提供了一个交互式可视化平台,方便用户查看基因组数据。
此外,3D-GDP 数据库还配备了一系列强大的在线分析工具。“Compartment Alignment” 模块可用于在线比较不同物种之间的基因共线性和 Compartment 结构;“TAD Alignment” 模块支持两种比较模式,能够直观地展示跨物种的保守 TAD 数据;“Loop Alignment” 模块专门用于识别物种之间的保守染色质环;“TAD Blast” 模块帮助用户探索特定基因序列与目标物种 TAD 结构的关系。
在技术方法上,研究人员主要运用了以下关键技术:首先,从 NCBI GEO 数据库搜索并下载高质量植物 Hi-C 数据集,这是研究的基础数据来源。然后,利用 Bowtie2 对 Hi-C 数据进行高精度映射,再通过 HiC-Pro 工具进行归一化处理,确保数据的准确性。之后,运用 HiCExplor、CscoreTools 等工具检测 A/B compartments,使用 HiCExplor 和 TADLib 工具检测 TAD 边界,借助 FitHiC2 工具识别染色质环。同时,通过 OrthoFinder 分析蛋白序列构建系统发育树,利用 WGDI 模块识别共线基因和共线片段。还整合 KEGG、GO 和 STRING 数据库的注释信息,对基因和蛋白功能进行全面注释。
研究结果方面:通过 “3D Structure” 模块模拟染色质分布,发现水稻染色质的着丝粒区域集中在细胞核一端,端粒分布在另一端,与 “Rabl” 分布模型相符。在基因组浏览器可视化中,观察到水稻 1 号染色体 29 - 33 Mb 区域存在长距离相互作用,该区域位于 Osa_73 主 TAD 内,且该 TAD 包含嵌套子 TADs,呈现复杂层级结构。进一步分析发现 Osa_73 TAD 内存在保守染色质环,利用 PDLLMs 模型预测环一端区域为候选增强子,支持其潜在调控功能。在 TAD 功能注释中,通过分析基因和预测蛋白 - 蛋白相互作用,能够识别高相互作用率的 TADs,并对其内部蛋白功能进行注释。通过各种比对模块,发现了不同物种间保守 TADs 和染色质环的不同模式,有的保守 TADs 具有基因共线性和环保守性,可能代表保守功能域;有的虽基因共线性有限,但保持稳定三维结构,可能主要维持染色质稳定性和基因组区室化。
研究结论表明,3D-GDP 是首个专注于比较不同植物物种 3D 基因组结构的数据库。它整合了多源数据,提供丰富的查询、可视化和分析工具,为研究植物基因调控和染色体结构提供了有力支持。通过揭示进化上保守的 TAD 和环结构与调控潜能的关系,为植物基因组进化研究开辟了新方向。该研究成果发表在《Plant Communications》,为植物基因组学领域的发展做出了重要贡献,有望推动相关研究取得更多突破,助力人们深入理解植物生命的奥秘,在作物改良、植物进化研究等方面具有广阔的应用前景。