整合长读长与短读长数据揭示犬类结构变异及其进化意义

【字体: 时间:2025年09月15日 来源:Genome Biology and Evolution 2.8

编辑推荐:

  本研究针对犬类结构变异(SV)研究多依赖短读长测序的局限性,整合长读长测序、短读长数据和基因组组装,对12个犬类样本进行综合分析。研究人员开发了基于图谱的基因分型方法,在1879个犬类样本中鉴定出大量新型SV,发现可移动元件(LINE-1/SINE)变异占主导,并识别出283个具有选择信号的SV。该研究显著扩展了犬类SV目录,为理解犬类进化、表型多样性和疾病机制提供了重要资源。

  

在犬类遗传学研究领域,结构变异(Structural Variation, SV)正日益被认为是影响表型多样性和疾病易感性的关键因素。尽管家犬(Canis lupus familiaris)作为研究遗传与进化的模式生物具有独特优势——其品种间在体型、行为、毛色等方面存在巨大差异,且患有多种与人类相似的疾病,但长期以来,研究人员对犬类基因组的探索主要依赖于短读长(Short-read)测序技术。这种技术虽然成本低廉、应用广泛,但在检测较大的插入(Insertion)和缺失(Deletion),特别是在高度重复的基因组区域时,存在明显的局限性。许多重要的变异,尤其是那些与近期进化事件相关的可移动元件(Mobile Elements)的插入,很可能被遗漏了。

近年来,长读长(Long-read)测序技术的突破,如太平洋生物科学(PacBio)和牛津纳米孔(ONT)技术,使得读取长度达到数十万碱基对成为可能。这促使研究界产生了多个高质量的犬类基因组组装。然而,这些组装通常是单倍型表征,无法充分捕捉个体中存在的杂合性变异。此外,如何将利用长读长数据发现的新变异在已有的大量短读长数据样本中进行基因分型(Genotyping),从而最大化这些珍贵资源的价值,是一个亟待解决的问题。

为了提供更全面的犬类结构变异图谱,Peter Z. Schall和Jeffrey M. Kidd的研究团队在《Genome Biology and Evolution》上发表了他们的研究成果。他们巧妙地整合了三种数据模态——基因组组装比较、长读长测序和短读长测序,对12个具有多组学数据的犬类样本(包括10只不同品种的狗、1只澳洲野狗和1只格陵兰狼)进行了深入分析。所有分析均以UU_Cfam_GSD_1.0_ROSY(一只德国牧羊犬)基因组为参考。更重要的是,他们利用基于图谱(Graph-based)的基因分型工具Paragraph,将新发现的变异在一个包含1879个犬类(品种犬、混种犬、乡村犬和狼)的短读长重测序数据库(Dog10K项目)中进行了基因分型,从而极大地扩展了已知的变异目录,并深入探究了其在群体中的频率分布和进化模式。

本研究主要采用了以下关键技术方法:利用SVIM-asm进行基因组组装间的SV calling;使用Sniffles2对长读长数据进行SV检测,并辅以局部组装和断点精细化;使用Manta对短读长数据进行SV calling;最关键的是,利用Paragraph对由长读长数据发现的所有SV在庞大的Dog10K短读长重测序队列(n=1879)中进行基因分型;使用Blastn和Blastx对SV序列进行重复元件注释和开放阅读框分析;采用Ohana软件基于祖先成分混合模型对基因分型后的SV进行选择信号分析。

结果

犬类结构变异检测

研究人员从12个样本中系统性地识别了结构变异,发现无论采用何种数据类型(组装、长读长、短读长),缺失和插入都是最主要的SV类型。通过比较基因组组装发现的SV数量最少,平均每个样本有21,509个缺失和20,712个插入,这主要是因为组装是单倍型 representation,无法包含杂合性变异。相比之下,长读长数据分析揭示了更多的杂合SV,平均每个样本有28,148个缺失和30,798个插入,其中约51%的缺失和65%的插入是杂合子的。短读长测序(Manta)本身对插入的检测能力明显不足(平均仅6,019个),但当利用Paragraph对长读长发现的SV进行基因分型后(Short-read+Paragraph),插入的检出数量大幅提升(平均23,730个),比单纯使用短读长增加了243%。这表明整合长读长发现与短读长基因分型的策略能极大提升SV检测的灵敏度,特别是对于较长的插入序列。

SV的重复序列注释

研究人员对缺失和插入的序列进行了重复元件注释,发现可变的反转录转座子(Retrotransposons)是犬类SV的主要贡献者。在过滤后的数据集中,有18,082个缺失和69,103个插入被注释为几乎完全由特定重复序列构成。其中,SINE_C2A1序列占据了主导地位,贡献了72.5%的缺失和67.4%的插入(占所有重复注释SV)。其次是长散在核元件-1(Long INterspersed Nuclear Elements-1, LINE-1s),占26.6%的缺失和31.8%的插入。综合来看,可变SINE和LINE-1序列共同贡献了所有检测到的缺失中的45.8%和插入中的15.7%,凸显了可移动元件在塑造犬类基因组结构变异中的核心作用。

具有完整开放阅读框的二态性LINE-1s

研究进一步聚焦于全长的LINE-1序列,并检查其是否具有完整的开放阅读框(Open Reading Frames, ORFs),这是其是否仍具有转座活性的潜在指标。他们共识别出1,410个变异的、具有完整ORF1p和ORF2p蛋白编码序列的LINE-1元件。这些元件绝大多数(82.1%)只存在于单个样本中,显示出其相对年轻的进化起源。值得注意的是,格陵兰狼样本(mCanLor)拥有最多的此类LINE-1序列(n=707),这可能得益于其采用的PacBio HiFi测序技术提供了更高的序列准确性。

结构变异等位基因频率中的选择信号

通过Paragraph对Dog10K样本进行基因分型,SV目录得到了极大扩展,相较于之前仅基于短读长的分析,缺失数量增加了56.5%,插入数量惊人地增加了705%。利用这个扩展的SV目录(299,115个双等位基因缺失和插入),研究人员在781只品种犬中进行了选择信号分析。他们复制了Dog10K项目之前基于SNP确定的9个品种支系(Clade)和5个祖先成分,并利用Ohana软件来寻找SV等位基因频率与全基因组背景频率模式不一致的位点。

分析发现了81个SV位点通过了严格的Bonferroni校正显著性阈值,另有283个位点达到了较宽松的阈值(p <= 0.0001)。这些受到选择的SV许多位于基因的内含子区,并与一些已知的品种特征或疾病相关。例如,在柯利犬和喜乐蒂牧羊犬支系中,发现了一个与柯利犬眼异常(Collie eye anomaly)相关的7.8 kb内含子缺失,该缺失的选择信号比区域内其他SNP更强。在獒犬支系中,发现了几个位于DENR、TRAF4和NSRP1基因内含子中的SINE_C2A1缺失。这些SINE序列在参考基因组(德国牧羊犬)中存在,但在狼样本中完全缺失,且在獒犬中显示出高频的缺失等位基因,提示其可能受到了近期选择。特别有趣的是,DENR基因中的两个多态性SINE以反向 orientation插入相邻的内含子,可能通过影响前体mRNA的剪接来调节基因功能。

讨论与结论

该研究通过整合多组学数据,为犬类结构变异研究提供了迄今为止最全面的图谱。它清晰地展示了长读长测序在发现杂合变异和解析复杂区域(如重复序列)方面的强大能力,同时也证明了基于图谱的基因分型方法在利用现有短读长数据资源对新型SV进行大规模基因分型方面的巨大价值。

研究的核心发现是,近期活跃的可移动元件(特别是SINE_C2A1和LINE-1)是犬类结构变异的一个主要来源,贡献了近一半的缺失和相当比例的插入。大量具有完整ORF的二态性LINE-1的发现,为理解这些元件在犬类基因组中的持续活动和进化动力提供了新的线索。

对扩展SV目录的群体遗传学分析揭示了数百个可能受到自然或人工选择影响的SV。其中一些SV与已知的品种特征和疾病易感性基因相关,这为了解选择如何作用于大型基因组变异并最终塑造现代犬品种的多样性提供了新的视角。例如,在獒犬支系中发现的多个内含子SINE缺失,可能与该支系大型犬的体型、癌症易感性和较短寿命等复杂性状相关,但其具体的功能机制仍需进一步实验验证。

总之,这项研究不仅极大地丰富了犬类基因组变异的资源,为未来研究犬类进化、表型多样性和疾病机制奠定了坚实的基础,同时也为在其他物种中开展类似的整合性结构变异研究提供了一个可借鉴的范本。所产生的SV目录和UCSC基因组浏览器 track hub 将成为犬类遗传学研究社区的宝贵资源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号