
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多维组学解析猪基因组变异的功能图谱:从编码区到非编码区的系统性注释
【字体: 大 中 小 】 时间:2025年07月02日 来源:BMC Biology 4.4
编辑推荐:
本研究通过整合1817头猪的全基因组测序(WGS)数据,结合表观基因组(ATAC-seq)和转录组(PigGTEx)资源,系统注释了27,167个功能丧失变异(LoFs)和5'UTR变异的功能影响。研究人员开发了深度学习模型pBasenji预测非编码变异对染色质可及性的调控作用,发现高预测评分SNP显著影响基因表达/剪接(e/sQTL)和背膘厚度等复杂性状。该研究为猪分子育种和人类疾病模型研究提供了重要资源。
猪作为重要的农业经济动物和生物医学模型,其基因组变异的功能注释长期面临重大挑战。尽管猪基因组具有高密度SNP变异(约每80个碱基1个SNP),但约98.9%的变异位于非编码区,其功能解析远落后于人类等模式生物。传统方法难以系统评估这些变异对基因调控和复杂性状的影响,特别是在组织特异性表观遗传调控层面。此外,功能丧失变异(LoFs)和5'非翻译区(5'UTR)变异的功能影响机制尚不明确,限制了猪基因组在精准育种和比较医学中的应用价值。
中国农业科学院深圳农业基因组研究所等单位的研究人员联合国际团队,在《BMC Biology》发表了突破性研究成果。该研究整合了1817头猪的全基因组数据(包括510个新测序样本),覆盖5个猪科物种和97个家猪品种,构建了迄今最全面的猪基因组变异图谱。研究团队开发了基于深度学习的pBasenji模型,首次实现了猪非编码变异对染色质可及性影响的精准预测,揭示了基因组变异通过表观基因组-转录组级联调控影响复杂性状的分子机制。
关键技术方法包括:(1)收集1817个WGS数据集(含510个新测序样本)进行变异检测;(2)使用snpeff/VEP注释27,167个LoFs和5'UTR变异;(3)整合PigGTEx项目的e/sQTL数据和13个组织的ATAC-seq数据;(4)开发pBasenji深度学习模型预测非编码变异功能;(5)通过GWAS分析13个经济性状的遗传基础。
结果
全面的猪基因组变异图谱
研究分析了1817个WGS样本,鉴定出2.14亿个SNP和3900万个InDel,其中47.8%SNP和89.3%InDel为新发现变异。t-SNE分析显示变异数据能准确反映猪种群的地理分布。变异在基因组区域的分布显示,最高富集于基因间区和内含子区,其次是UTR和蛋白编码基因。

蛋白编码变异的功能特征
鉴定出27,167个LoFs(包括8,434个终止获得、2,310个起始丢失等),88.91%为新发现。LoFs呈现极低频率(DAF<1%),符合纯化选择特征。ROH分析显示近交会导致LoFs积累。e/sQTL分析发现563个LoFs影响基因表达,493个影响剪接。GWAS显示18个LoFs与7个性状显著相关,如rs332843141(终止获得)通过调控CSE1L基因表达影响腰肌面积(LMA)。

5'UTR变异的注释
定义了4类高影响5'UTR变异(HI-UTRs):uAUG获得/丢失和uSTOP获得/丢失。这些变异虽对蛋白序列影响较小,但显著富集于启动子区(TssA/TssBiv)。GWAS分析发现HI-UTRs与性状相关,如rs321611719通过调控ARSB表达影响断奶总重(TLWT_BA)。
非编码SNP的调控影响
非编码SNP虽有害性低于错义突变,但高于同义突变。高pCADD评分SNP显著富集于活性启动子/转录本(TssA)和双价启动子(TssBiv)。组织特异性分析显示,子宫容量相关SNP富集于脂肪组织TxFlnk区,而生长性状(如日增重ADG)SNP富集于肝脏TssBiv区。
pBasenji模型的应用
pBasenji模型在13个组织中ROC值达0.79-0.94。预测发现高效应SNP显著富集于e/sQTL和GWAS位点。例如chr1区5个SNP(如rs692909574)通过调控MAP2K5表达影响背膘厚度,该基因与人类肥胖相关。
研究结论表明,该工作建立了猪基因组变异的功能影响图谱,系统评估了编码和非编码变异对表观基因组、转录组和复杂性状的调控作用。开发的pBasenji模型为农业动物非编码变异功能预测提供了新工具。发现的27,167个LoFs和5'UTR变异资源,为猪分子育种和人类疾病模型研究提供了重要基础。特别值得注意的是,该研究首次揭示了非编码变异通过染色质可及性变化影响基因调控的分子路径,为理解复杂性状遗传机制提供了新视角。这些发现将推动猪基因组研究从变异发现向功能解析的转变,对实现精准育种和比较医学研究具有重要价值。
生物通微信公众号
知名企业招聘