编辑推荐:
在奶牛遗传学研究中,全基因组关联研究(GWAS)虽能找到与农艺性状相关的遗传变异,但难以确定因果变异,限制了基因组预测准确性。研究人员通过整合 GWAS、大规模平行报告分析(MPRA)和计算机剪接预测数据,分析剪接破坏变异体(SDV),确定 3 个推定因果变异体,为奶牛遗传改良提供关键信息。
在奶牛养殖领域,精准遗传改良一直是提升奶牛生产性能、优化养殖效益的关键目标。随着基因测序技术的飞速发展,全基因组关联研究(GWAS)成为探寻奶牛遗传奥秘的有力工具。研究人员利用 GWAS 对奶牛众多农艺性状进行研究,成功识别出大量与性状相关的遗传变异。然而,这些变异大多只是与真正因果变异处于连锁不平衡状态的标记,并非真正影响性状的关键因素。这就好比在复杂的遗传迷宫中,研究人员虽然找到了一些线索,但这些线索并不能直接指向宝藏所在,使得准确的基因组预测难以实现,奶牛遗传改良的进程受到阻碍。为了突破这一困境,深入理解奶牛复杂性状的遗传基础,法国巴黎萨克雷大学(Université Paris-Saclay)等机构的研究人员开展了一项意义重大的研究。他们致力于剖析剪接变异体在奶牛复杂性状形成中的作用机制,旨在挖掘出真正的因果变异,为奶牛的精准遗传改良提供坚实的理论依据。这项研究成果发表在《Nature Communications》上,为奶牛遗传学领域带来了新的曙光。
研究人员采用了多种关键技术方法。首先是全基因组关联研究(GWAS),对不同品种奶牛的多性状进行分析,获取大量遗传数据。其次,运用大规模平行报告分析(MPRA)中的 Vex-seq 方法,对剪接变异体进行实验验证。同时,借助 SpliceAI 和 Pangolin 等生物信息学算法预测剪接变异体,综合多方面数据进行分析。
GWAS 分析
研究人员对荷斯坦(Holstein)、夏洛莱(Charolaise)、蒙贝利亚(Montbéliarde)和诺曼底(Normande)四个品种的奶牛进行 GWAS 分析,涉及牛奶生产、繁殖、抗病、生长及体型等 20 个性状。从 2500 万个双等位基因单核苷酸多态性(SNP)中筛选,最终确定 138,971 个候选变异,分布于牛常染色体上。其中,6 号染色体变异数量最多,不同品种奶牛的候选变异在数量和相关性状上存在差异。例如,荷斯坦奶牛与牛奶蛋白和脂肪含量相关的候选变异较多,而夏洛莱奶牛则与 30 月龄肌肉评分相关的候选变异较多。这一结果为后续研究提供了丰富的遗传数据基础,让研究人员初步了解了不同性状在基因组中的分布特征。
SpliceAI 和 Pangolin 的应用评估
SpliceAI 和 Pangolin 原本是用于分析人类遗传变异的深度学习剪接预测算法。由于哺乳动物剪接代码具有高度保守性,研究人员尝试将其应用于奶牛基因组分析。通过对 24 个已报道的奶牛 SDV 进行分析,发现这两个程序在高召回阈值(score ≥0.2)下,预测 SDV 的阳性率均为 70.8%,但对内含子变异的预测错误率较高。进一步利用 Var.GWAS 和 Var.P 数据集评估,结果显示 Pangolin 在剪接预测性能上略优于 SpliceAI,其平均受试者工作特征曲线下面积(AUC)为 0.831,而 SpliceAI 为 0.775。这表明在奶牛基因组背景下,虽然这两个程序都有一定的预测能力,但 Pangolin 的表现更为出色,为后续筛选剪接变异体提供了更可靠的工具选择。
Vex-seq 实验
研究人员构建了 Var.GWAS 和 Var.P 数据集,并使用 Vex-seq 方法对其进行分析。在实验过程中,对质粒文库进行严格质量控制,确保数据的可靠性。结果显示,约 75% 的变异在 HEK293T 或 MAC-T 细胞中得到验证,且两个细胞系的预测剪接指数(PSI)和 ΔPSI 值相关性良好,表明 Vex-seq 实验结果稳定可靠。通过设定 ΔPSI 阈值(±5%)和错误发现率(FDR <0.05 或 0.01),在 Var.GWAS 和 Var.P 数据集中分别鉴定出一定比例的 SDV,其中 Var.P 数据集的 SDV 比例更高。这一实验不仅验证了部分变异的剪接效应,还为后续因果变异的筛选提供了重要依据。
剪接变异体的特征分析
研究发现,影响系统发育保守核苷酸的变异在降低剪接率的变异组中显著富集,这意味着保守区域的变异更有可能对剪接产生重要影响。同时,GWAS 中与最严重剪接改变相关的变异,其替代等位基因频率往往较低。在研究的 182 个数量性状位点(QTL)中,约 11.2%(22 个)至少包含一个 SDV,若考虑实验局限性进行校正,该比例预计可达 57%,表明 SDV 在 QTL 中广泛存在,对奶牛复杂性状的影响不容忽视。这些发现进一步揭示了剪接变异体与奶牛遗传性状之间的紧密联系。
因果 SDV 的鉴定
通过综合分析变异与表型的统计关联、变异对基因功能的预测影响以及基因与表型之间的功能联系,研究人员从 38 个 SDV 中鉴定出 3 个推定因果变异:rs134725785(位于 DGAT1 基因)、rs135835897(位于 PIK3C2G 基因)和 rs133242826(位于 PIAS4 基因)。rs134725785 可增加 DGAT1 表达,影响牛奶表型;后两个基因虽作用机制尚不明确,但根据已有研究推测,PIK3C2G 可能调节牛奶脂肪含量,PIAS4 可能参与调节骨骼发育和体重相关性状。这一成果为奶牛复杂性状的遗传解析提供了关键线索,有望推动奶牛遗传改良的实践应用。
SDV 与 eQTL/sQTL SNP 的共定位分析
研究人员对 38 个 SDV 与表达数量性状位点(eQTL)/ 剪接数量性状位点(sQTL)SNP 进行共定位分析,发现 71.1%(27/38)的 SDV 至少与一个单组织或多组织的 e/sQTL SNP 共定位。这一结果进一步支持了这些变异是真正 SDV 的观点,同时表明 SDV 与基因表达和剪接调控密切相关,为深入理解奶牛复杂性状的遗传调控网络提供了重要依据。
在这项研究中,研究人员成功鉴定出与奶牛复杂性状相关的剪接变异体,并确定了 3 个推定因果变异,揭示了 SDV 在奶牛复杂性状形成中的重要作用。这不仅有助于深入理解奶牛的遗传机制,还为奶牛的基因组选择和遗传改良提供了关键信息,有望推动奶牛养殖业的可持续发展。然而,研究也存在一定局限性,如未纳入深内含子变异分析,部分 SDV 对蛋白质功能的影响难以明确等。未来研究可进一步拓展研究范围,深入探究 SDV 的作用机制,为奶牛遗传改良提供更全面、精准的理论支持 。