HiFi测序——让泛基因组研究如虎添翼!

【字体: 时间:2023年08月25日 来源:基因有限公司

编辑推荐:

  在本研究中,研究人员基于HiFi测序生成了10个狼尾草材料的从头基因组组装,构建了基于图的泛基因组来鉴定基因组SV,并确定了在作物驯化过程中对热适应有贡献的SV。

2023年过去一半,已有不下4篇泛基因组(玉米,Nature Genetics;狼尾草,Nature Genetics;水稻,Nature Communications;番茄,Nature Genetics)的研究发表。在泛基因组学大行其道的当下,各种测序手段也有机会大显身手。开扒这几篇文章的研究方法,会发现有一个绕不开的测序技术:PacBio SMRT测序。而其中具有高精度和准确度的HiFi测序更是被越来越多的研究人员认可,用来做大规模的基因组组装。以下就让我们一起,通过一篇文章来看看HiFi测序的表现~

image002.png

全球变暖严重影响作物产量,威胁世界粮食安全。全球平均温度每升高1°C,小麦产量预估将减少6%,水稻减少3.2%,玉米减少7.4%。因此,植物的耐热性研究迫在眉睫,急需开发能够耐受全球气温上升的作物,从而最大限度地提高农业产量,以帮助满足不断增长的人口的粮食需求。狼尾草(Pennisetum glaucum(L.))是一种C4谷类作物,由于其对高温的耐受性较好,对保障干旱和半干旱热带地区的粮食和饲料安全具有重要意义。它也是9000多万贫困农民的主食,种植面积超过3120万公顷。狼尾草是挖掘植物热相关的基因以及研究其在更高温度下实现茁壮成长的作用机制的理想模型。

最近的研究表明,许多参与环境应激反应的基因受到结构变异(SV)的强烈影响。然而,当依赖二代测序时,SV的检测是具有挑战性的。因为读长较短,需要更多的生信拼接来完成基因组组装,这就导致不能有效识别重复序列和大片段的结构变异。三代测序的长读长大大减轻了拼接难度,HiFi测序兼具的高准确度(Q30)也能带来更高的测序质量。在本研究中,研究人员基于HiFi测序生成了10个狼尾草材料的从头基因组组装,构建了基于图的泛基因组来鉴定基因组SV,并确定了在作物驯化过程中对热适应有贡献的SV。

高质量的泛基因组构建

研究人员基于394系狗尾草的系统发育关系从8个主要地理区域选择了10个具有代表性的品种,通过整合PacBio HiFi、Bionano、Hi-C和Illumina数据组装了它们的染色体水平基因组。这些基因组的大小从1.89 Gb到2.00 Gb不等,scaffold N50值从193.80 Mb到286.98 Mb不等。与先前发表的狼尾参考基因组(PmiG)相比,Contig N50值大幅增加了155倍至3959倍(表1)。将组装的基因组与高质量二代测序数据进行比对,观察到比对率为95.62% ~ 99.57%,覆盖了94.92 ~ 99.90%的基因组。每个基因组BUSCOs评分超过91.60%,且10个组装的质量值(QV)超过40。这些结果证明了10个狼尾草基因组组合的准确性、完整性和连续性。

表1. 基因组组装与注释综述

image004.png

接着,研究人员利用表1中的11个狼尾草基因组构建了泛基因组。在全部基因家族中,共获得核心基因家族14608个,占总数的一半以上(46.60 ~ 52.08%);可变基因家族占比次之(39.75% ~ 49.94%);私有基因家族所占比例最小(0.73-8.73%)。在泛基因组中,PmiG相对于其他组合显示出更高的私有基因家族比例,这可能是由于之前采用的二代测序读长较短,组装产生的序列相对碎片化。相对较低的contig N50值也直观地表明PmiG基因组序列片段化程度较高(表1),这将导致基因和编码序列的平均长度较短,短基因(<1 kb)的比例较高。因此,组装序列的碎片化将导致基因的不完整预测,可能导致PmiG中的私有基因集。

将PI537069与其他10个基因组比对,共鉴定出744,364个SVs,包括622,584个存在和缺失变异(PAVs), 2177个倒位(INVs), 91,852个拷贝数变异(CNVs)和27,751个易位(TRANs)。

狼尾草的耐热性分析

表型和生理数据显示,狼尾草对高温条件具有很强的耐受性(图1a)。为了剖析狼尾草耐热性的分子机制,研究人员首先进行了比较基因组分析。分析显示,一个转录因子家族(RWP-RK)在11个狼尾草材料的基因组中被鉴定出扩增(图1b),先前研究表明该家族对生物或非生物胁迫有反应。研究人员进而关注了位于该基因附近的长末端重复序列(LTRs),发现早期LTR扩增可能与RWP-RK转录因子家族扩增有关,并可能导致狼尾草中特定RWP-RK基因的增加(图1c,d)。进一步研究发现,过表达RWP-RK的转基因株系叶片在高温下比野生型(WT)植株的叶片更少枯萎(图1e),通过共调节网络分析和双荧光素酶验证发现,该转录因子可以激活两个与应激相关的基因PMA2G00541.1和PMA6G02031.1(图1g)。这些结果表明RWP-RK转录因子家族的扩大可能有助于狼尾草的耐热性。

image006.png

图1. RWP-RK转录因子家族的扩增有助于耐热性。

转录组测序和瞬时共表达实验表明,狼尾草可能通过RWP - RKs在转录水平上调控热激因子和内质网相关基因表达来消除高温胁迫诱导的错误折叠蛋白,从而快速响应热应激(图2)。

image008.png

图2. 热胁迫下珍珠粟生长响应的激活网络。

位于SVs附近的基因可能对热胁迫更敏感。为了确定与热胁迫基因转录变化相关的潜在SVs,研究人员选择4个耐热材料(HR)和2个热敏感材料(HS)进行分析,共筛选出44个候选SVs可能与34个热胁迫基因的表达变化相关。在编码两种HSP70蛋白(PMA1G04478.1和PMA7G02533.1)和编码热休克伴侣蛋白结合蛋白(PMA5G02838.1)的基因附近发现了HR组和HS组之间的4个与基因表达差异相关的固定SVs (图3)。这3个在高耐热性中起重要作用的基因的转录水平可能受到其附近的SVs的影响,进一步说明这些SVs可能在狼尾草的耐热性中起重要作用。

image010.png

图3. 在HR组中,三个热相关蛋白基因附近存在固定SVs。

研究人员还进行了耐热性驯化方面的研究,发现了一个716bp的插入可能是驯化过程中的积极选择,影响了附近基因对热的响应,可能有助于较高温度下狼尾草种子的产生。此外,还鉴定出142个与一个或多个性状(共20个性状)相关的PAV(Presence-absence variation,存在/缺失变异),可能有助于了解这些SV对狼尾草分子育种的贡献。总的来说,这些结果证明了基于狼尾草图的泛基因组分析在鉴定耐热适应性及其与驯化关系方面的实用性。

image012.png

图4. 提出的耐热性与内质网运输系统整体相关的机制。

研究人员进行了综合多组学分析和功能验证,提出了一种可能的机制,即狼尾草优越的耐热性与内质网系统相关基因的扩增和表达改变有关(图4)。特别是,狼尾草的内质网系统比玉米和水稻对高温的反应更快。SVs和RWP-RK基因可能与内质网相关基因共同调控狼尾草对热胁迫的快速反应。

原文链接:

https://doi.org/10.1038/s41588-023-01302-4

本文通过多组学分析,提出了狼尾草对热胁迫的抗性主要取决于内质网的可能机制,验证了RWP-RK转录因子是耐热性调控的正转录因子,并揭示了其与内质网途径一起参与狼尾草耐热的分子机制,为农作物的耐热研究奠定了重要基础,在保障粮食安全、应对气候变暖等方面发挥重要作用。

而既长且准的HiFi测序无疑是泛基因组研究更强有力的工具,无偏好性地覆盖完整基因组,精准检测包含SNP、indel、SV等在内的所有变异类型,有助于对农作物重要性状的遗传机制进行分析,进而进行基因组辅助育种策略的设计,对农作物的遗传改良有着重要的指导意义。

基因有限公司作为PacBio公司中国区代理商,自2011年以来将PacBio第三代单分子实时测序技术引入国内,一直为国内用户提供专业的三代测序系统的安装培训,技术支持,应用培训与售后维护工作,赢得客户的一致好评与信任。基因有限公司将一如既往的支持越来越多的PacBio用户。

image015.png

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号