
-
生物通官微
陪你抓住生命科技
跳动的脉搏
低覆盖度全基因组重测序基因型填补策略优化及其在牙鲆驯化选择信号研究中的应用
【字体: 大 中 小 】 时间:2025年04月23日 来源:Aquaculture Reports 3.2
编辑推荐:
为解决水产养殖中高成本全基因组测序和低密度SNP芯片的局限性,研究人员开展牙鲆(Paralichthys olivaceus)低覆盖度全基因组重测序(lcWGS)基因型填补策略优化研究。通过比较SHAPEIT预分型和GLIMPSE填补工具的组合性能,确定0.5x为最经济有效的测序覆盖度,并发现调整有效群体数(ne)参数可显著提升填补准确性。研究还鉴定了染色体14上3.59 Mb的驯化选择区域,包含111个候选基因,为牙鲆分子育种提供了重要标记和资源。该成果为水产物种基因型填补提供了实践指南,并丰富了牙鲆种质资源库。
水产养殖业的遗传改良长期以来受限于高昂的全基因组测序成本,而低密度SNP芯片又难以捕捉稀有变异和复杂性状关联位点。牙鲆作为东亚重要的经济鱼类,其种质退化、抗病力下降等问题亟待分子育种技术突破。低覆盖度全基因组重测序(lcWGS)结合基因型填补技术,能以极低成本获取高密度SNP数据,但在水产物种中的应用策略尚未标准化。
中国海洋大学的研究团队通过分析168尾牙鲆高覆盖度(18.63x)全基因组数据,构建包含1030万高质量双等位SNP的单倍型参考面板。系统评估SHAPEIT、EAGLE和Beagle等工具组合的性能后发现,SHAPEIT预分型与GLIMPSE填补的组合在三条测试染色体上均表现最优,0.5x覆盖度即可实现90%的中位皮尔逊相关系数(R2)。研究还揭示有效群体数(ne)参数对小型参考面板填补效果的关键影响,将ne从默认值调整为100可提升低覆盖度(0.05x)数据填补准确率6.58%-9.76%。基于优化策略,研究人员成功对35尾1x覆盖度样本进行填补,并将其整合至群体遗传分析中。相关成果发表于《Aquaculture Reports》,为水产物种基因组研究提供了经济高效的技术方案。
关键技术方法包括:1) 使用Trimmomatic和GATK对168尾牙鲆(122养殖/46野生)18.63x WGS数据进行质控和变异检测;2) 通过SHAPEIT v4.2.2构建单倍型参考面板;3) 采用seqtk模拟0.05x-8x低覆盖数据评估填补性能;4) 利用GLIMPSE v1.1.1进行基因型填补并优化ne参数;5) 结合PopLDdecay、PSMC和选择性清除分析解析群体遗传特征。
3.1 数据特征
研究获得1.70 TB清洁数据,鉴定1030万高质量SNP,转换/颠换比(Ts/Tv)为1.21。外显子区仅占2.59%的SNP,但包含143,142个错义突变位点,为功能研究奠定基础。
3.2 基因型填补
工具比较显示GLIMPSE在0.05x-4x覆盖度下显著优于Beagle4(R2提升4.45%-9.76%)。SHAPEIT预分型面板使填补准确率较Beagle5提升1.2%-3.8%。值得注意的是,MAF<0.05的稀有变异填补效果最差,而染色体24在MAF>0.35时出现异常精度下降,提示短染色体 haplotype构建挑战。
3.3 群体遗传结构
admixture分析将样本划分为10个祖先成分,显示威海群体遗传分化最显著(FST=0.143)。连锁不平衡(LD)衰减分析发现养殖群体LD衰减速度较野生群体慢50%,反映人工选择痕迹。PSMC揭示所有群体在5万年前经历瓶颈效应,与末次盛冰期气候事件吻合。
3.4 选择性清除分析
威海群体染色体14上3.59 Mb区域(含111个基因)呈现强选择信号:θπ比值(野生/威海)>4.15,FST>0.41。该区域Tajima's D值达-3,ROH长度(3.56±0.02 Mb)显著高于野生群体(0.03±0.02 Mb)。GO富集显示候选基因显著参与脂肪酸代谢(DNTT、MARCH5)和B细胞激活(TIAL1)等通路,其中ATOH7(视网膜发育)和SGPL1(生殖细胞形成)可能关联养殖适应性性状。
该研究首次系统优化了水产动物lcWGS基因型填补流程,证实0.5x覆盖度结合ne参数调整即可满足多数研究需求,较传统方法降低成本90%以上。发现的驯化选择区域为牙鲆生长、抗病等经济性状的分子育种提供靶点。方法论创新尤其适用于缺乏高密度芯片的水产物种,而群体历史动态分析为种质资源保护提供进化视角。值得注意的是,研究强调参考面板规模与物种特性的匹配比工具选择更重要,这对罗非鱼、对虾等水产动物的基因组研究具有普适指导意义。
生物通微信公众号
知名企业招聘