编辑推荐:
这篇研究利用去相关复合多选择信号(DCMS)技术,分析印度和巴基斯坦萨希瓦尔牛基因组。发现两国牛群在产奶、繁殖、免疫等经济性状上,存在不同的选择印记和候选基因,为遗传改良提供关键依据,对优化育种意义重大。
引言
萨希瓦尔牛是重要的国际跨国界奶牛品种,起源于印度 - 巴基斯坦的干旱旁遮普地区。其具有高产奶量、耐热、耐蜱以及抗寄生虫等优良特性,在印度主要用于牛奶生产,在巴基斯坦则作为乳肉兼用品种。自 1947 年印度独立后,两国萨希瓦尔牛的种质跨境交流有限,经过约 7 - 8 代,自然和人工选择是否会改变其基因组特征成为研究焦点。
识别选择印记有助于奶牛基因组育种,对理解分子机制和推动育种计划至关重要。此前研究多聚焦于单一国家的萨希瓦尔牛,且使用单一统计测试,效率较低。本研究采用 DCMS 技术,对来自印度和巴基斯坦的三个萨希瓦尔牛群体的基因组数据进行分析,以探究主要经济性状的基因组特征差异。
结果
- 质量控制和有效种群大小(Ne):研究选用了来自印度(NDRI 和 Hisar)和巴基斯坦的三个萨希瓦尔牛群体,共 240 头动物。经过基因型质量控制,最终 NDRI、Hisar 和巴基斯坦萨希瓦尔牛基因型数据集中分别保留了 39,040、41,227 和 20,150 个单核苷酸多态性(SNP)。利用GONE软件估计Ne,结果显示三个群体的Ne均高于 50,达到了联合国粮食及农业组织(FAO)的最低推荐水平。
- 去相关复合多选择信号(DCMS):DCMS 方法结合了FST、单倍型纯合度统计(H1)、改良单倍型纯合度(H12)、Tajima’s D 指数和核苷酸多样性(π)这五个统计量。通过分析,在 NDRI、Hisar 和巴基斯坦萨希瓦尔牛中分别发现了 31、24 和 15 个基因组区域,对应的蛋白质编码基因数量分别为 115、94 和 52 个。这些区域包含了许多与重要经济性状相关的已知和新候选基因。
- 基因网络分析和枢纽基因识别:基于STRING v12.0 数据库构建蛋白质网络,并使用 MCC 算法识别枢纽基因。结果显示,NDRI、Hisar 和巴基斯坦萨希瓦尔牛的顶级枢纽基因分别为SH3BGR、BPIFB1和RALGAPA2。
- 牛奶及相关性状的选择印记:在 NDRI 萨希瓦尔牛中,NEK11、HMGCS1、BTN1A1等基因与牛奶性状相关;Hisar 萨希瓦尔牛中,KCNH3、ATL1等基因影响牛奶生产;巴基斯坦萨希瓦尔牛中,BACH2、SLC24A3等基因与牛奶脂肪酸和生产性状有关。
- 繁殖性状的选择印记:SH3BGR、PSMG1和BRWD1等基因在 NDRI 萨希瓦尔牛的繁殖性状中起重要作用;Hisar 萨希瓦尔牛中,USP3基因与胚胎发育相关;巴基斯坦萨希瓦尔牛中,SLC24A3基因与生育性状有关。
- 免疫反应和抗病性的选择印记:MCOLN2和BPIFB1基因分别在 ICAR - NDRI 和 Hisar 萨希瓦尔牛的免疫反应中发挥作用;NDRI 和 Hisar 萨希瓦尔牛中还发现了多个与抗牛结核病相关的基因;巴基斯坦萨希瓦尔牛中,MGAT5基因与乳腺炎抗性有关。
- 身体生长和饲料效率的选择印记:在 NDRI 和 Hisar 萨希瓦尔牛中,PCP4、TAL1和CYP4A11等基因与生长和饲料效率相关;巴基斯坦萨希瓦尔牛中,RALGAPA2、CFAP61等基因与皮下脂肪厚度、饲料摄入和体重等性状相关。
- QTL 识别和富集分析:对三个群体进行 QTL 识别和富集分析,结果显示 NDRI 和 Hisar 萨希瓦尔牛中,牛奶型 QTLs 在显著基因组区域的比例较高;巴基斯坦萨希瓦尔牛中,与身体重量、脂肪厚度等相关的 QTLs 较为显著。
讨论
萨希瓦尔牛作为跨国界牛种,在全球动物产品供应中具有重要潜力。本研究首次利用 DCMS 技术对不同来源的萨希瓦尔牛进行比较分析,发现了多个与经济性状相关的基因组区域和基因。
在牛奶生产方面,印度萨希瓦尔牛的牛奶型 QTLs 比例较高,表明其在牛奶生产性状上经历了更强烈的选择;巴基斯坦萨希瓦尔牛中,与牛奶蛋白质和脂肪加工相关的基因也有重要作用。
繁殖性状上,印度萨希瓦尔牛的相关基因对胚胎发育和生育功能至关重要,这与印度在育种中对繁殖性状的重视有关。
免疫反应方面,不同环境下的选择使 NDRI 和 Hisar 萨希瓦尔牛群体中存在多种免疫相关基因。
在身体生长和饲料效率方面,巴基斯坦萨希瓦尔牛在生产性状上受到强烈选择,相关基因对脂肪沉积、肌肉生长等有重要影响。
结论
本研究首次运用 DCMS 技术,对跨国界萨希瓦尔牛基因组的选择印记模式进行研究。结果揭示了印度和巴基斯坦萨希瓦尔牛在经济性状上的差异选择印记,印度萨希瓦尔牛主要集中在牛奶生产和繁殖性状,而巴基斯坦萨希瓦尔牛则侧重于生长和肉类性状。尽管选择方向不同,但萨希瓦尔牛仍保留了与牛奶、生长和繁殖相关的基本基因组特征。本研究结果为两国正在进行的遗传改良计划提供了重要参考。
材料和方法
- 动物资源、SNP 基因分型和质量控制:选取印度的 NDRI 和 Hisar 以及巴基斯坦的萨希瓦尔牛群体,共 240 个基因型数据样本。使用 50K SNP 数据芯片进行基因分型,其中 NDRI 和 Hisar 的样本来自印度国家乳业发展局(NDDB),巴基斯坦的样本来自公共数据存储库。利用$PLINKSHAPEIT$ v2.r904 程序对数据进行质量控制和单倍型分型。
- 去相关复合多选择信号(DCMS):DCMS 技术整合了多种统计方法,包括FST、H1、H12、Tajima’s D 指数和π,以检测选择印记。通过将这些统计量转换为 p 值,并结合相关矩阵计算,最终得到 DCMS 值。设定 q < 0.1 为筛选阈值。
- 有效种群大小(Ne):利用GONE软件估计Ne,并将其纳入SHAPEIT v2.r904 程序的分型参数中。
- 固定指数(FST):使用$PLINKF_{ST}F_{ST}$值。
- 单倍型纯合度统计(H1 和 H12):使用SHAPEIT v2.r904 对每个染色体进行分型,然后利用LASSIP v1.1.1 软件计算 H1 和 H12 统计量。
- Tajima’s D 和核苷酸多样性(π):利用VCFTOOLS v0.1.16 程序计算 Tajima’s D 和π统计量,并使用 R 语言的 runmed 函数进行平滑处理。
- DCMS 统计量的计算:将五个统计分析结果结合,使用MINOTAUR、rrcovNA和MASS等 R 包进行计算和转换,最终得到 DCMS 统计量的 p 值和 q 值。
- 基因注释和功能注释:使用GALLO v1.4 和PANTHER v18.0 软件对基因和 QTL 进行注释和富集分析。
- 网络形成和枢纽基因识别:利用STRING v12.0 和CYTOSCAPE v3.10.1 软件构建蛋白质网络,并基于 MCC 算法识别枢纽基因。