杨树品种‘107’(Populus × euramericana ‘74/76’)染色体级别单倍型分型基因组组装与注释
《Scientific Data》:Chromosome-level and haplotype resolved genome assembly of Populus?×?euramericana cv. ‘74/76’
【字体:
大
中
小
】
时间:2025年10月01日
来源:Scientific Data 6.9
编辑推荐:
本研究针对重要工业用材树种杂交杨树‘107’(Populus × euramericana cv. ‘74/76’)基因组信息缺乏的问题,通过整合PacBio HiFi、短读长、Hi-C和转录组数据,成功完成了其染色体级别的单倍型分型基因组组装。结果表明,两个单倍型基因组(亚基因组A和B)大小分别为428.50 Mb和414.20 Mb,包含37,188和37,578个编码基因,BUSCO完整性评估均超过98.5%,共线性超过99%。该高质量基因组为解析杨树杂种优势分子机制、功能基因挖掘及分子育种提供了关键遗传资源。
在林业生产和生态建设中,杨树(Populus)作为一种典型的速生用材树种,扮演着举足轻重的角色。它不仅生长迅速、生物产量高,被广泛用于木材、纤维、生物燃料原料及其他生物制品的生产,还在全球范围内有着广泛的栽培面积,是我国重要的速生用材树种之一,在林业生产中占据着极高的经济地位。其中,欧美杨107号(Populus × euramericana cv. ‘74/76’,2n=38),这个由美洲黑杨(Populus deltoides)和欧洲黑杨(Populus nigra)杂交选育出的品种,凭借其生长快、干形通直、木材质量高、抗逆性强、无性繁殖能力强以及轮伐期短等优良性状,成为我国工业用材林的重要树种资源之一。然而,尽管已有多个杨树物种(如毛果杨Populus trichocarpa、银白杨Populus alba、胡杨Populus euphratica)的基因组序列公开发表,但对于像107杨这样的杂交品种,其单倍型分型(haplotype-resolved)基因组信息仍然缺失,这极大地限制了对杨树杂种优势(heterosis)分子机理的深入探索以及相关育种策略的精准设计。
植物的杂种优势通常与基因组的高杂合度密切相关,因此,获得高精度的基因组组装结果对于阐明杂种优势的分子机制至关重要。一个高质量的单倍型分型基因组,不仅有助于区分来源于不同亲本的染色体所携带的遗传信息,还能用于挖掘优良的等位基因变异、研究杂种优势的遗传和表观遗传调控机制,并为育种历史提供宝贵的遗传学和分子生物学见解。为了解决这一问题,研究人员对杨树107号进行了染色体级别的高质量单倍型分型基因组组装与注释。
为了完成这项研究,作者团队采用了一套综合的测序策略。他们采集了三个月大的107杨组培苗的幼嫩叶片用于基因组DNA提取,同时采集了根、茎、幼叶和成熟叶用于转录组测序。基因组测序方面,结合了短读长测序(DNBSEQ-T7平台)、PacBio HiFi长读长测序(Revio平台)和Hi-C测序(用于三维基因组构象捕获)。此外,还构建了多组织混合样本的二代和三代转录组文库(分别基于DNBSEQ-T7和Oxford Nanopore PromethION平台)。基于高质量的测序数据,研究人员首先通过K-mer分析对基因组特征进行了评估,估算其基因组大小约为505.05 Mb,杂合率约为2.74%,这一数值高于其他一些杨树杂交种,暗示其亲本基因型间可能存在较大的遗传距离,从而可能具有更强的杂种优势。
基因组组装采用了hifi-asm软件中的HiC-integration分型策略,利用Hi-C数据辅助进行单倍型分型,初步获得了两个单倍型(hap1和hap2)的contig级别基因组。随后,利用Juicer和3D-DNA流程,根据contig间的相互作用关系,将contig锚定到染色体上,并通过JuiceBox进行手动优化,最终获得了染色体级别的基因组序列。两个单倍型基因组被命名为亚基因组A和亚基因组B,各包含19条染色体,组装大小分别为428.50 Mb和414.20 Mb,其中约93.11%的组装序列被成功锚定到38条伪染色体上。通过BUSCO评估显示,两个亚基因组的完整性分别达到98.70%和98.50%,LTR组装指数(LAI)分别为16.96和14.45,利用Merqury评估的组装质量值(QV)也表明组装质量较高。端粒预测分析显示,大部分染色体末端均检测到了端粒重复序列。
在基因组注释方面,研究人员结合了从头预测、同源比对和转录组证据的方法。重复序列注释发现,亚基因组A和B中分别有42.67%和45.15%为重复序列,其中长末端重复反转录转座子(LTR)占比最高。非编码RNA预测识别了tRNA、rRNA、snRNA和miRNA等。基因结构预测最终在亚基因组A和B中分别注释到37,188和37,578个蛋白质编码基因。功能注释表明,超过98%的预测基因模型能在至少一个公共数据库(如Uniprot、NR、KEGG、GO、Pfam等)中找到功能信息。BUSCO对注释蛋白完整性的评估也显示了高完整性(亚基因组A:98.90%;亚基因组B:99.20%)。
共线性分析是本研究的一个亮点。研究人员将107杨的两个亚基因组与其亲本之一的美洲黑杨(P. deltoides)和欧洲黑杨(P. nigra)的基因组进行了比较。结果显示,亚基因组B与美洲黑杨的共线性最好,其次是两个亚基因组之间,而亚基因组A与欧洲黑杨也显示出较高的共线性。这从基因组结构层面印证了107杨的杂交起源,并为后续研究其等位基因特异性表达及亲本基因组贡献提供了框架。
本研究的关键技术方法包括:利用PacBio HiFi长读长测序、Illumina短读长测序和Hi-C技术进行基因组测序;使用hifi-asm软件整合Hi-C数据进行单倍型分型基因组组装;通过Juicer、3D-DNA和JuiceBox进行染色体挂载和优化;综合运用从头预测、同源比对和转录组证据进行基因结构预测和功能注释;利用BUSCO、LAI、Merqury等指标进行组装和注释质量评估;通过共线性分析比较107杨亚基因组与亲本基因组的关系。
基于短读长数据的K-mer分析估算107杨基因组大小约为505.05 Mb,杂合率约为2.74%,重复序列比例较高。这为后续选择合适的数据量和组装策略提供了依据。
最终获得的染色体级别单倍型分型基因组中,亚基因组A大小为428.50 Mb,亚基因组B大小为414.20 Mb。两个亚基因组各包含19条染色体,N50长度均超过21 Mb。BUSCO评估显示组装完整性极高,LAI指数表明组装质量良好。短读长和PacBio HiFi数据对组装结果的比对率和覆盖度均接近100%,验证了组装的准确性和完整性。
重复序列是杨树基因组的重要组成部分。在亚基因组A和B中,重复序列分别占42.67%和45.15%,其中LTR反转录转座子占比最大(分别占21.31%和21.97%),Gypsy和Copia是主要的LTR类型。DNA转座子也占相当比例(约15%)。
通过整合多种证据,在亚基因组A和B中分别预测到37,188和37,578个蛋白质编码基因。基因的平均结构特征(如外显子数、CDS长度等)在两个亚基因组中相似。功能注释成功率为98.26%(亚基因组A)和98.34%(亚基因组B),表明绝大多数基因的功能可被推测。
共线性分析揭示,亚基因组B与亲本美洲黑杨(P. deltoides)的共线性最高(79.21%),两个亚基因组之间的共线性也达到80.57%,亚基因组A与另一亲本欧洲黑杨(P. nigra)的共线性为78.45%。这清晰地展示了杂交后代基因组与亲本基因组之间的保守性。
本研究成功完成了杨树重要杂交品种107号(Populus × euramericana cv. ‘74/76’)的染色体级别单倍型分型基因组组装与注释。所获得的两个单倍型基因组(亚基因组A和B)组装质量高、注释完整性强,共线性分析结果有力地支持了其杂交起源。该基因组资源的发布,填补了杂交杨树高质量基因组信息的空白,为后续深入研究107杨的杂种优势分子机制、重要农艺性状(如速生、抗逆、木材品质)相关功能基因的挖掘、等位基因特异性表达分析、比较基因组学研究以及分子设计育种提供了不可或缺的基础和关键遗传资源。该基因组有助于从单倍型水平理解杂交物种的基因组特征和进化规律,对林木遗传改良和基因组学研究具有重要的推动作用。相关数据已存储于GenBank和国家基因组科学数据中心(NGDC),可供全球研究者使用。该研究成果发表于《Scientific Data》期刊。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号