《Journal of Animal Science and Biotechnology》:Genome-wide variation landscape reveals temperature adaptation in Chinese indigenous cattle
编辑推荐:
摘要背景中国北方与南方显著的温度差异驱动了中国本土牛品种的适应性进化,使其能够在多样且极端的生物气候环境中生存繁衍。理解这些品种如何适应不同温度对于识别有助于其在相应条件下生存的遗传因素至关重要。结果在本研究中,研究人员利用336头个体(平均测序深度为30.1
摘要背景中国北方与南方显著的温度差异驱动了中国本土牛品种的适应性进化,使其能够在多样且极端的生物气候环境中生存繁衍。理解这些品种如何适应不同温度对于识别有助于其在相应条件下生存的遗传因素至关重要。结果在本研究中,研究人员利用336头个体(平均测序深度为30.12×)的全基因组序列数据,涵盖21个牛品种,包括8个寒冷地区品种、3个温暖地区品种和10个炎热地区品种,揭示了三个品种群之间清晰的遗传分化。利用全基因组SNP(单核苷酸多态性,Single Nucleotide Polymorphism)、InDel(插入缺失,Insertion/Deletion)和SV(结构变异,Structural Variation)数据,研究人员鉴定出一系列与冷或热温度适应性相关的选择性基因组区域、基因以及变异/SV。基于选择性变异/SV在这些基因中的极端等位基因频率差异、其已知的生物学功能、蛋白质-蛋白质相互作用网络、先前研究中关于其与环境适应性关系的发现以及其组织特异性,推测关键基因KLB、HSPA4、ECSCR、DNAJC18和SLC9A1可能负责冷/热 analog 热适应性。结论通过整合SNP、InDel和SV数据,本研究为理解选择性环境适应性提供了全面的遗传框架。这些发现增进了对牛温度适应机制的理解,并为新品种培育提供了分子基础。
## 研究背景与问题
牛(Bos taurus)作为关键反刍动物物种,为人类提供皮革、肉、奶等产品,并在欠发达地区作为役用动物发挥重要作用。家牛分为无峰牛(Bos taurus taurus)和有峰瘤牛(Bos taurus indicus)两大类:前者主要分布于温带到寒冷气候区,具有光滑流线型体型和紧绷皮肤;后者主要生活于亚热带和热带湿热气候区,具有肩峰、发达垂肉和下垂耳等独特形态生理特征,且基础代谢率较低、水电解质需求较少、对蜱虫和胃肠道寄生虫抵抗力更强。中国地处东亚沿太平洋西岸,横跨东西与北半球,涵盖多样的地理、气候和生态条件。南北方向显著的温度变化驱动了本土牛品种的进化适应性,使其能够在多样极端温度下繁衍。中国本土牛依据地理分布和基因组谱系分为三类:南方品种(主要为瘤牛血统)、北方品种(普通牛血统)和中原品种(普通牛与瘤牛杂交)。近年来,全基因组测序(Whole Genome Sequencing, WGS)已广泛用于识别家养畜禽受环境适应性影响的遗传变异,已有研究分别探讨了瑞典北部Fj?ll牛的寒冷适应性和云南德宏瘤牛的热带适应性,但温度适应性的遗传基础仍认知有限。目前选择性清扫分析主要依赖SNP标记,而WGS能够捕获更广泛的基因组变异,包括InDels和SVs。InDels是第二常见的基因组变异类型,在进化变化中发挥关键作用;SVs则对基因组进化和局部适应性具有重要功能影响,可通过修改遗传元件的邻近性和拷贝数影响基因剂量、基因表达、DNA互作及基因组三维结构。尽管已有研究调查了牛基因组中SVs的分布及其与某些表型的关联,但InDels和SVs与温度适应性的关联研究仍较罕见。
## 研究开展与核心结论
为此,研究人员分析了336头牛的全基因组序列数据(平均测序深度30.12×),代表21个品种,包括寒冷环境品种8个(6个中国北方本土品种和2个外国普通牛品种)、温暖环境品种3个(3个中国中原本土品种)和炎热环境品种10个(7个中国南方本土品种和3个外国瘤牛品种),调查了这些品种的群体结构,并鉴定了与冷热环境适应性相关的选择性基因组区域和遗传变异。研究成果发表于《Journal of Animal Science and Biotechnology》杂志,为牛的群体分层和温度诱导的适应性选择信号提供了新见解,并为培育气候适应性牛品种提供了重要的分子基础。
研究所用关键技术方法包括: Rolling Archives 的序列数据处理、群体遗传学分析和功能注释验证三个层面。序列数据方面,研究人员对235头中国本土牛血液样本进行测序,并从NCBI数据库获取101头牛的重测序数据;SNPs和InDels使用Sentieon DNASeq流程调用,基于BWA比对至ARS-UCD1.2参考基因组,经GATK质控过滤后保留高质量双等位基因变异;SVs使用Lumpy软件检测,经SVtools合并、SVtyper基因分型、Duphold读深度注释及BCFtools质控后保留高质量SVs。群体遗传学分析方面,研究人员采用VCF2Dis计算遗传距离并构建NJ,J邻接系统发育树,使用TreeMix推断群体水平最大似然树,利用PLINK进行主成分分析(PCA),通过ADMIXTURE进行群体混合分析;基于SNP/InDel的选择性清扫采用DCMS(decorrelated composite of multiple signals)统计量整合F
ST、θπ比率、XPCLR和XP-EHH四种统计量;SV因密度稀疏仅采用F
ST分析。功能分析方面,研究人员使用SnpEff进行变异注释,通过KEGG和STRING数据库分别进行通路富集分析和蛋白质-蛋白质相互作用(PPI)网络构建,利用DynaMut2预测错义SNP对蛋白质热力学稳定性的影响,基于CattleGTEx数据集进行组织特异性分析,并从1000 Bull Genomes Project提取119头寒冷适应品种个体进行验证。
## 研究详细结果
**群体结构与遗传多样性**
系统发育树清晰地将21个品种聚类为三个与温度地理分组完全一致的类群。PCA显示PC1区分普通牛与瘤牛,PC2进一步将舟山牛(ZS)从炎热组中分离。混合分析在K=2时分为普通牛(主要为寒冷组)和瘤牛(主要为炎热组)两大类,温暖组显示混合血统;K=3时福州牛(FZ)明显分离,K=4时ZS明显隔离,K=7时交叉验证误差最低。遗传距离分析显示组内距离显著小于组间距离。核苷酸多样性(π)分析表明,寒冷组π值最低(0.0014-0.0020),温暖组居中(0.0025-0.0033),炎热组中外来品种π值为0.0029,南方中国本土品种为0.0025-0.0034。
**寒冷组选择性区域和变异(基于SNPs和InDels)**
利用SNP数据鉴定出86个选择性区域涵盖160个基因,利用InDel数据鉴定出103个选择性区域包含149个基因,两者有15个区域和24个基因重叠。KEGG分析揭示14条显著通路,主要涉及信号转导(MAPK信号通路、PI3K-Akt信号通路、磷脂酶D信号通路)、神经系统(胆碱能突触)、代谢(谷胱甘肽代谢、硫辛酸代谢)和内分泌系统(胰岛素信号通路)。PPI网络构建后鉴定出DNAJC18、SIL1、SPATA24、ECSCR和SMIM33五个枢纽基因。进一步鉴定出40个选择性变异(36个错义SNP、1个剪接受体SNP、1个剪接供体SNP和2个移码InDels),定位于25个基因,其在寒冷组中频率极高(≥0.87)、炎热组中极低(≤0.23)、温暖组居中(0.52-0.79),且在验证群体中频率亦高(≥0.83)。
**炎热组选择性区域和变异(基于SNPs和InDels)**
利用SNP数据鉴定55个选择性区域涵盖155个基因,利用InDels鉴定74个选择性区域包含180个基因,33个区域和63个基因重叠。KEGG分析揭示11条显著通路,主要涉及免疫系统(血小板活化、趋化因子信号通路)、信号转导(Apelin信号通路)和循环系统(心肌细胞中的肾上腺素能信号)。PPI网络中HSPA4、ATP5F1B、SIL1、GTPBP4和MON1A为枢纽基因。鉴定出51个选择性变异(49个错义SNP、1个剪接受体SNP和1个起始缺失SNP),定位于33个基因,在炎热组中频率高(≥0.76)、寒冷组中低(≤0.12)、温暖组居中(0.27-0.51),验证群体中频率与寒冷组相似(≤0.18)。
**选择性SVs**
共鉴定24个选择性SVs(22个缺失和2个重复),F
ST>0.85,多数位于内含子或基因间区,涉及14个基因。其中5个SV位于SNP鉴定的选择性区域内(2个寒冷组特异、1个炎热组特异、2个共享),6个位于InDel选择性区域内(2个寒冷组特异、2个炎热组特异、2个共享)。
**选择性基因的组织特异性**
基于CattleGTEx数据集分析23个组织的表达谱,鉴定出83个高组织特异性基因(tau值≥0.80)。
## 讨论部分总结与结论翻译
研究人员在讨论中指出,群体结构和系统发育分析清晰揭示了三个气候区域品种间的系统发育分化,混血分析进一步确认了普通牛和瘤牛的聚类差异,温暖组显示混合血统。南方中国牛的较高遗传多样性与前研究一致,可能归因于其他牛属物种的基因组渗入。
温度适应性是农场动物适应性进化的重要方面,受长期自然和人工选择作用,在基因组中留下选择信号。研究分别利用SNPs、InDels和SVs进行选择性清扫分析,发现SNP和InDel数据计算的DCMS值一致性有限(相关系数分别为0.57和0.68),选择性区域重叠也有限(寒冷组15个、炎热组33个)。24个选择性SV中仅8个与SNP/InDel选择性区域重叠。此外,还发现两个移码InDels可能通过改变编码序列导致基因功能丧失,这是适应性进化的关键机制之一。即使同一选择基因被不同变异类型鉴定,它们可能通过不同机制影响基因功能,为基因参与适应性过程提供多层支持;而仅通过InDel或SV检测到的基因,尤其大多数选择性SV不与SNP/InDel选择性区域重叠,表明SV对温度适应可能有重要贡献。因此,整合InDel和SV数据与SNP相结合,能更全面刻画环境适应的遗传基础。
研究人员还讨论了以taurine为基础的参考基因组可能引入的偏差、短读长测序SV检测的固有限制、以及未评估非编码变异潜在调控作用等研究局限,并展望未来牛泛基因组、长读长测序、多组学整合和功能验证的应用前景。
研究结论指出:"利用336头代表21个牛品种的全基因组序列数据,我们揭示了三个气候定义品种群之间的显著遗传分化。通过整合全基因组SNP、InDel和SV数据,我们鉴定出一系列与温度适应性相关的候选基因和变异。其中一些基因如KLB、HSPA4和DNAJC18先前已被报道参与动物的温度适应性,而ECSCR和SLC9A1则是在本研究中首次鉴定的新候选基因。此外,我们的结果表明,联合利用InDel和SV信息与SNP数据相结合,能够更全面细致地剖析环境适应的遗传基础,并为将多样化基因组变异类型纳入其他物种的适应性进化研究提供了稳健框架。总体而言,这些发现深化了对牛热适应性机制的理解,并为培育气候韧性牛群体提供了重要的分子基础。"