中国西南喀斯特地区304只本土山羊的全基因组测序及变异数据集揭示独特适应性遗传特征

《Scientific Data》:Whole-genome sequencing and variants data of 304 indigenous goats from Southwest China

【字体: 时间:2025年10月01日 来源:Scientific Data 6.9

编辑推荐:

  本刊推荐:为解决西南喀斯特地区本土山羊基因组资源匮乏问题,研究人员开展了304只贵州黑山羊、赫章黑山羊和塔什山羊的全基因组测序研究。该数据集包含6.0TB原始序列,平均测序深度7.5X,鉴定出2713万SNPs和276万InDels,为解析山羊环境适应性、经济性状功能基因提供了重要资源,显著丰富了全球山羊基因组数据库。

  
在广袤的中国西南喀斯特地区,一群适应山地环境的本土山羊正悄然成为遗传学研究的新焦点。这些山羊品种包括贵州黑山羊、赫章黑山羊和塔什山羊,它们经过长期自然和人工选择,形成了体型小巧、山地采食能力强等独特特性,很好地适应了当地的喀斯特生态系统,为农户提供了基本收入来源。然而,尽管这些山羊品种具有重要的经济价值和独特的适应性特征,其基因组资源却相当有限,这严重制约了对其优良性状的功能解析和育种进程。
目前,对于这些本土山羊品种的研究存在明显的不平衡。贵州黑山羊作为贵州省的主要山羊品种,已经获得了一定的研究关注,特别是在生长性能方面。例如,有研究探讨了大蒜素和中药渣对贵州黑山羊生长性能的影响,并通过变异-性状关联分析,发现了GATA4基因的插入/缺失、CADM2、OPN4、SNX29和MYLK4基因的拷贝数变异与生长性状显著相关,ACADM基因的单核苷酸多态性(SNP)与屠宰和肉质性状显著相关。相比之下,对赫章黑山羊和塔什山羊的研究则相对匮乏,尤其是赫章黑山羊,在Web of Science或PubMed数据库中甚至找不到相关出版物。对于塔什山羊,仅有本研究团队的一项研究发现了与体型结构性状相关的基因组变异。
全基因组测序(WGS)作为一种强大的技术,使研究人员能够分析生物体的全部遗传组成。近年来,大量研究基于WGS数据开展了多方面探索,如通过整合古代和现代山羊基因组测序数据研究中国绒山羊的进化历史,利用包含813个个体的WGS数据集构建山羊泛基因组并揭示驯化过程中的基因丢失模式。基于全基因组关联研究,WGS被用于识别与产奶量、绒产量、毛直径和毛密度等性状相关的基因。基于选择性清除分析,一些品种特异性状得到了阐明,如藏羚羊的高海拔适应性和波尔山羊的快速肌肉生长。此外,WGS技术还被用于评估品种遗传特征和提供核心变异以开发SNP芯片。
为了解决西南喀斯特地区本土山羊基因组资源匮乏的问题,研究人员在《Scientific Data》上发表了一项重要研究,报道了来自三个本土山羊品种的304个样本的全基因组测序数据集。该研究团队来自西南大学动物科学技术学院、贵州省畜禽育种资源鉴定中心和贵州大学动物科学学院,研究得到了国家重点研发计划和中国地方山羊品种优势性状基因挖掘与验证项目的支持。
研究方法主要包括样本采集、全基因组测序、基因组比对和变异检测等关键步骤。研究人员从贵州省的安顺、毕节和榕江市数十个小农户农场采集了304只成年山羊的血液样本,包括贵州黑山羊(雄性84只,雌性20只)、赫章黑山羊(雄性80只,雌性20只)和塔什山羊(雄性19只,雌性81只)。使用标准酚-氯仿法从血液样本中提取DNA,通过BGI-T7测序平台进行全基因组测序,产生150bp的配对末端序列。
数据分析流程主要包括质量控制、序列比对、变异检测、变异过滤和变异注释。使用fastp软件(v0.23.4)对所有304只山羊的WGS原始数据进行质量控制,使用Sentieon Genomics软件(v202308)进行序列比对和变异检测。将clean reads比对到山羊参考基因组(ARS1.2),然后对BAM文件进行排序和标记重复。使用Sentieon haplotyper模块进行变异检测,为每个个体独立生成基因组变异调用格式(gVCF)文件。最后,在Sentieon GVCFtyper模块中进行变异联合调用,从所有gVCF文件创建共同的VCF文件。使用GATK软件(v4.1.8.1)中的SelectVariants模块过滤SNP和InDel变异,使用Vcftools软件(v0.1.16)过滤平均深度小于5且缺失基因型率超过10%的变异。
测序数据质量控制结果
使用BGI-T7平台对304只山羊进行全基因组测序,产生了5968.2Gb的原始序列数据。每个样本的未过滤读数范围从97到386百万读数,测序产量在11.3Gb到57.9Gb之间。所有样本的平均测序深度为7.5X,变化范围从5.0X到22.0X。所有样本中,97.4-99.4%的碱基达到高Phred质量分数Q20(测序错误率<0.01),93.2-98.0%的碱基达到Q30(测序错误率<0.001),表明碱基识别准确率高。平均GC含量从39.7%到44.4%不等。150个碱基对读数中的每个位置都获得了35的高质量分数,几乎所有读数的质量分数都在35到40之间,证实了所有测序读数的整体高质量分数。
SNP和InDel数据质量控制
对所有样本进行联合调用后,共获得41,559,429个SNPs和4,891,077个InDels。为了确保变异质量并最大限度地减少假阳性,研究人员使用GATK软件进行了严格过滤,并使用包括MQ、QD、FS和SOR在内的统计指标评估变异质量,获得31,405,939个SNPs和4,603,254个InDels。使用Vcftools软件(v0.1.16)过滤掉平均深度小于5且缺失基因型率超过10%的变异。最终保留了27,134,128个SNPs和2,762,642个InDels。
SNP和InDel统计摘要
高质量变异均匀分布在山羊基因组的29条常染色体上,平均每85个碱基有一个SNP,每838个碱基有一个InDel。超过一半的SNPs(54.3%)和InDels(56.1%)位于内含子区域,而只有一小部分(0.8%的SNPs和0.2%的InDels)位于外显子区域。大约1%的变异位于UTR区域,尽管SNPs和InDels的总数比例约为10:1,但它们的分布和变异类别相似。累积深度分布图显示了从1到40的变异深度累积比例曲线,所有SNPs和InDels的变异深度算术平均值分别为7.2和7.5。这些结果表明过滤后的变异分布均匀且质量高。
样本和品种独立性
研究人员使用主成分分析(PCA)、亲缘关系分析、系统发育树分析和群体结构分析来评估样本水平和品种水平的遗传独立性。前两个主成分解释了总变异的15.3%,并显示三个山羊品种之间存在明显区分。此外,亲缘关系矩阵热图显示品种之间几乎没有亲缘关系,每个品种内的亲缘关系系数较低。直方图频率分布显示,90%和95%的亲缘关系系数分别低于0.037和0.093,表明样本间亲缘关系较低,样本独立性良好。
系统发育树显示了三个山羊品种的进化关系,虽然三个品种相对独立,但塔什山羊和赫章黑山羊显示出受到贵州黑山羊的一些影响。交叉验证误差值在K=3时最低,为0.268。群体结构分析显示,在K=3时,所有样本的祖先组成可以很容易地按品种区分,尽管少数样本显示出其他品种的祖先成分,但考虑到它们的地理位置接近(200公里),这被认为是正常的。这些结果有效地证明了样本独立性、品种独立性以及全基因组重测序数据集的高质量。
本研究提供了原始原始读数和处理后的变异文件。值得注意的是,这些变异是基于最常见的San Clemente品种参考基因组(ARS1.2)获得的。数据集包括公羊和母羊,但由于参考基因组中缺乏有效的Y染色体信息,VCF文件中缺少该染色体上的变异。山羊基因组的另外两个端粒到端粒基因组组装可在NCBI数据库中获得:由苏教授团队组装的ASM4082201v1和由李教授团队组装的T2T-goat2.0。这些基因组版本为未来应用中利用WGS数据集提供了更大的灵活性。
该研究创建的中国西南喀斯特地区304只本土山羊的全基因组测序数据集,是迄今为止该地区生成的最大WGS数据集。测序数据平均深度为7.5X,确保了基因组分析所需的功率和分辨率。通过将测序数据与山羊参考基因组比对并进行变异检测和变异过滤,共鉴定出2713万个SNPs和276万个InDels。该WGS数据集的可靠性从其测序碱基质量、变异质量、样本独立性和品种独立性中可见一斑。
此数据集将填补这些山羊品种基因组资源的空白,可用于(1)计算遗传指标以评估其现状,并推断其遗传关系;(2)识别与生物学性状相关的基因组变异;(3)整合其他基因组资源并追踪物种进化和驯化;(4)比较不同品种的基因组数据以识别正选择下的区域;(5)使用核心变异开发SNP芯片用于未来育种目的。总之,这个来自中国西南喀斯特地区的大规模WGS数据集显著丰富了全球山羊品种基因组资源,对于研究群体遗传学和阐明经济性状至关重要。
基因组测序数据已存入CNCB平台,登录号为CRA025744,NCBI登录号为PRJNA1281799。鉴定出的变异数据已存入CNCB平台,登录号为GVM001051,ENA登录号为PRJEB90831。所有基因组分析均在Linux操作系统上使用标准生物信息学工具进行。从原始测序读数到VCF文件的数据处理主要步骤、软件和代码/参数可在GitHub上获得。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号