利用Linked-read(10x Genomics linked-read)与短读长(short-read)测序检测与评估新西兰奶牛拷贝数变异(Copy Number Variation, CNV)

《Frontiers in Genetics》:Detection and evaluation of copy number variation using both linked-read and short-read sequencing in New Zealand dairy cattle

【字体: 时间:2026年06月11日 来源:Frontiers in Genetics 2.8

编辑推荐:

  摘要:近年来,牛健康与生产性状相关的单核苷酸多态性(Single-Nucleotide Polymorphism, SNP)鉴定已取得显著进展,但拷贝数变异(Copy Number Variation, CNV)及其他类型的结构变异(Structural Va

  
摘要:近年来,牛健康与生产性状相关的单核苷酸多态性(Single-Nucleotide Polymorphism, SNP)鉴定已取得显著进展,但拷贝数变异(Copy Number Variation, CNV)及其他类型的结构变异(Structural Variation, SV)的识别与验证仍具挑战。本研究利用37头新西兰奶牛的linked-read测序数据识别SV区域,并采用基于传递(transmission-based)的框架在群体水平对这些变异进行验证。研究人员依据10x Genomics推荐流程使用LongRanger软件鉴定出62,438个推定常染色体SV区域;随后在代表群体的2306头动物的Illumina短读长测序数据中,使用基于Read-depth的基因分型方法CNVpytor估算这些区域的拷贝数状态。研究人员采用结合系谱信息的线性混合模型(linear mixed model)评估拷贝数状态的孟德尔遗传(Mendelian inheritance),并以传递水平(transmission level)量化各CNV区域的生物学有效性。传递水平分布较广,所有区域平均值为0.5162,较大的SV富集较高的传递水平。共有7218个CNV区域显示高传递水平(>0.9),表明存在强遗传证据;其中7136个与一个或多个公开数据集报告的CNV区域重叠,82个高置信度区域为既往未报道的新变异。高传递水平CNV区域在三亲本(trio)家系中呈现清晰的离散遗传模式,提供其在群体内可遗传的生物学证据。结果表明,整合linked-read测序与基于群体传递水平的验证,可为鉴定高置信度CNV区域提供稳健框架;本研究所获经验证CNV目录是下游功能分析以及将结构变异纳入基因组选择(genomic selection)和育种方案的重要资源。
利用Linked-read与短读长测序检测与评估新西兰奶牛拷贝数变异(CNV)的研究解读
该研究发表于《Frontiers in Genetics》。
一、研究背景与立项依据
结构变异(Structural Variation, SV)是哺乳动物遗传多样性的重要来源,其中拷贝数变异(Copy Number Variation, CNV;通常指>50 bp的基因组片段缺失或重复)可通过影响基因剂量(gene dosage)及调控元件参与复杂性状形成。在奶牛中,CNV已被报道与产奶量、繁殖力、健康及使用寿命等重要经济性状相关联,具有生物学发现和育种的双重价值。然而,现有牛SNP基因分型芯片分辨率有限,难以准确检测复杂和多等位CNV;传统基于Read-depth的短读长(short-read)全基因组测序虽具可扩展性,但在GC偏好和重复序列区域假阳性率高且断点不精确;第三代长读长(long-read)测序虽能改善SV检出却因成本与通量限制尚难应用于大规模群体。此外,牛品种间SV存在特异性,参考基因组单一品种来源可能引入偏差,且多数检出的CNV缺乏严格的生物学验证。因此,亟需一种兼顾分辨率、成本与群体规模,并能区分真实遗传变异与技术假阳性的CNV识别与验证策略。本研究拟通过整合10x Genomics linked-read(Linked-read)测序的高分辨率SV发现能力与大规模短读长测序的Read-depth基因分型,并结合基于系谱的孟德尔传递水平(transmission level)验证,建立新西兰奶牛高置信度CNV目录。
二、主要关键技术方法概要
研究人员对37头新西兰种公牛(18头荷斯坦-弗里生Holstein-Friesian, HF;17头娟姗Jersey, JER;2头HF×JER杂交)进行10x Genomics linked-read测序,用LongRanger(v2.2.2)比对至牛参考基因组ARS-UCD1.2并调用SV(>50 bp),合并去冗余得推定SV区域集。另对代表新西兰奶牛群体结构的2306头动物(730 HF、468 JER、1069 HF×JER杂交及少量其他品种;含1532头公牛和774头母牛——部分为公牛之母)进行Illumina HiSeq 2000短读长双端100 bp测序,用BWA-MEM比对同一参考基因组,借助CNVpytor(v1.3.1)以200 bp窗口进行Read-depth提取与GC校正,对各推定SV区域估算每个个体的拷贝数状态(Copy Number State),按≤1.5为缺失(loss)、≥2.5为重复(gain)、其间为正常(normal,即二倍体)分类;依群体频率划分为缺失型、重复型、复杂型(同时有缺失与重复≥5%)、罕见型(<5%)及不确定型CNV区域。随后利用含三代系谱的关系矩阵A,拟合单变量动物模型(univariate animal model)线性混合模型,计算各SV区域拷贝数估计值中归因于加性遗传效应之方差占比定义为传递水平(取值范围0~1),并在约600个三亲本(trio)家系中可视化孟德尔传递模式。最后将高传递CNV区域与DGVa数据库及已发表牛CNV数据集(Lee et al. 2023; Bhati et al. 2023; Grant et al. 2024等)作基因组坐标重叠比较(≥10 bp),并用Ensembl注释基因及外显子。
三、研究结果
Structural variants inference(结构变异推断)
37个linked-read样本平均覆盖度29×~43×(一头达68.89×),平均产生约8.5亿条Reads,平均每人检出自约7000个SV,合并后共得到62,438个常染色体推定SV区域(>50 bp),总长33,002,890 bp,占基因组1.33%;染色体长度与SV数目呈强正相关(r=0.843)。SV大小介于50~29,904 bp,均值1854 bp,以小尺寸为主。同品种个体间SV重叠高于不同品种间,一例低比对率样本共享SV较少。
Copy number evaluation and transmission level estimation(拷贝数评估与传递水平估算)
按短读长群体拷贝数频率分布,62,438个区域分类为:复杂CNV 25,406个(40.69%,均长740±1912 bp)、缺失CNV 20,022个(32.07%,均长1664±3345 bp)、不确定11,791个(18.88%)、重复CNV 3828个(6.14%,均长2201±4071 bp)、罕见CNV 1391个(2.23%,均长12,895±8346 bp)。传递水平均值0.5162±0.3016,分布较均匀;缺失型CNV平均传递水平最高(0.714±0.241),复杂型最低(0.398±0.272)。高传递水平区间富集较大尺寸SV。传递水平>0.9的区域共7218个(占总11.56%),其中缺失型5267个、重复型196个、复杂型728个、不确定型994个、罕见型33个;7218个中7136个与已有公开CNV目录重叠,82个为新发现高置信CNV。高传递CNV在三亲本家系中呈现整数拷贝数聚类及清晰孟德尔分离(如双亲拷贝数为0其子代亦多为0,示零拷贝缺失遗传)。
Overlap with other publicly available databases(与公开数据库重叠情况)
与本研亢CNV重叠比例:DGVa为86.26%(53,859/62,438),Lee et al.(2023) 50.35%,Bhati et al.(2023) 39.11%,Grant et al.(2024)-Menta 49.06%,Grant et al.(2024)-Smoove 67.10%。反向看公开数据与本研亢高传递CNV重叠数以DGVa最多(6734个),Bhati et al.(2023)最少(2963个)。1561个高传递CNV落于基因区,其中357个位于外显子。
四、讨论与结论总结(结论部分翻译/浓缩)
讨论指出,linked-read技术以低于长读长成本提供长程基因组信息从而提升大尺寸SV检出,虽LongRanger已停更但本文提出的基于传递水平的验证框架可通用于任意SV发现平台(长读长、泛基因组或图基因组)。通过Read-depth重新基因分型和保守阈值划分CNV类型可有效区分稳定多态、低频新突变及多等位/技术噪音区域。传递水平分析直接量化加性遗传方差占比,是区分真实遗传CNV与技术假阳子的有力手段——低传递区与外源数据库重叠率低更符合技术噪声特征,高传递区跨研究重现性好,即便少数无先前注解仍可据遗传模式判定为真变异,缺失型SV因linked-read条形码信号尤其敏感故具最高传递水平。品种构成影响SV检出与重叠率(如Fleckvieh与HF/JER遗传距离远致重叠降低),强调品种匹配发现panel的重要性。经验证的高传递CNV可纳入基因组预测模型以捕获SNP未能标记的结构变异遗传效应,品种特异性CNV目录有助减小参考偏差、提高育种值估计准确性。
Conclusion(结论部分浓缩翻译):
研究人员整合linked-read测序发现与基于群体规模的传递水平验证,在新西兰奶牛中构建了高置信度CNV目录——从37头动物linked-read数据识别出62,438个推定常染色体CNV区域,继而在2306头动物短读长测序中用CNVpytor进行Read-depth基因分型,借助系谱线性混合模型估算传递水平量化孟德尔遗传以区分生物学相关CNV与技木假象。最终7218个CNV区域具高传递水平(>0.9),多数与已发表CNV重叠,少量为新变异。结果表明,基于传递水平的验证为CNV识别提供了稳健且互补的框架,证实linked-read与short-read测序整合适用于家畜群体结构变异研究。结构变异检出与验证受群体组成及参考基因组选择影响,与SV具品种特异性的认识一致。本研究提供的可扩展、生物学驱动的验证策略有助于弥合SV发现与实际育种应用间的鸿沟,并为深入解析牛基因组结构变异生物学意义奠定基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号