基于PacBio HiFi和Hi-C结合RNA-seq数据的延边牛高质量染色体水平基因组组装

【字体: 时间:2025年08月12日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对中国本土优质牛种延边牛缺乏高质量参考基因组的现状,采用PacBio HiFi长读长测序、Hi-C染色体构象捕获和RNA-seq技术,成功构建了首个染色体水平的延边牛基因组(YB_JAAS)。该基因组总长2.8Gb,contig N50达86.41Mb,包含20,421个蛋白编码基因,BUSCO完整性达93%,为解析延边牛抗寒性、肉质性状等特色表型的遗传机制提供了关键资源。

  

在中国东北严寒地区,延边牛作为经过自然和人工选择的特色地方品种,以其卓越的抗寒能力、优质的雪花牛肉和高效的粗饲料利用率闻名。然而,长期以来该品种的遗传研究受限于参考基因组的缺失,研究者们不得不依赖荷斯坦牛等西方品种的基因组数据,导致大量品种特异性变异信息丢失。这种状况严重阻碍了对延边牛独特表型(如-30℃环境下的生存能力、肌肉脂肪沉积特性)的分子机制解析,也影响了该珍贵遗传资源的保护和开发利用。

针对这一关键问题,吉林省农业科学院畜牧兽医研究所(东北农业研究中心)联合延边畜牧发展公司的科研团队在《Scientific Data》发表了突破性研究成果。研究人员创新性地采用多组学整合策略:通过PacBio Revio平台获取106.7Gb HiFi数据(平均读长16.4kb),结合341.51Gb Hi-C数据实现染色体锚定,辅以26.23Gb RNA-seq数据指导基因注释。特别值得注意的是,团队从10岁成年延bian公牛采集血液样本,确保获得高完整性基因组DNA,同时纳入5头20月龄个体的重测序数据进行组装验证。

基因组组装

研究获得的YB_JAAS基因组包含30条染色体(29条常染色体+X),总长2.85Gb,其中17条染色体实现无间隙组装。Hi-C互作图谱显示清晰的染色体区室结构

,与参考基因组ARS-UCD2.0的共线性分析验证了组装准确性

重复序列注释

采用RepeatMasker、RepeatProteinMask和de novo预测相结合的策略,发现51.94%基因组为重复序列,其中LINE(长散在重复元件)占比最高达31.91%

,这些重复元件的分布模式为研究基因组进化提供了新线索。

基因注释

通过整合同源预测、ab initio建模和转录组证据,鉴定出20,421个蛋白编码基因,平均含9.85个外显子。与野牦牛、印度瘤牛等近缘物种比较显示,延边牛基因结构具有更多外显子和更长的内含子

。功能注释揭示97.35%基因在NR、Swiss-Prot等数据库获得功能注释,其中KEGG分析显示16.21%基因参与疾病通路,15.16%涉及器官系统功能。

这项研究创建的YB_JAAS基因组填补了东亚牛属基因组资源的空白,其86.41Mb的contig N50指标显著优于多数已发表牛科基因组。特别值得注意的是,该资源使研究者能精确定位先前使用西方牛参考基因组时被遗漏的结构变异,如与抗寒相关的CORT、FGF5基因家族拷贝数变异,以及与大理石纹肉质相关的CAPN1基因特异性SNP。基因组数据已存入国家基因组科学数据中心(登录号:SAMC4847615),将推动三个方向的后续研究:1)解析极端环境适应性的表观遗传调控网络;2)开发分子标记辅助培育优质雪花肉牛;3)建立中国本土牛种遗传资源保护策略。正如通讯作者Yumin Zhao和Yang Cao强调的,这项成果不仅为比较基因组学研究提供了新范式,也为实现联合国可持续发展目标中的"农业生物多样性保护"贡献了中国方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号