长读长结构变异发现与靶向短读长基因分型实现猕猴结构变异的群体规模表征
《Genome Biology》:Long-read structural variant discovery and targeted short read genotyping enables population scale characterization of structural variation in rhesus macaques
【字体:
大
中
小
】
时间:2025年11月22日
来源:Genome Biology 9.4
编辑推荐:
本研究针对猕猴作为重要临床前模型的结构变异(SV)研究不足的问题,通过59只猕猴的长读长测序发现339,334个SV,并在2,645只猕猴中开展靶向基因分型,创建了最大的猕猴SV公共数据集。研究发现猕猴SV以Alu逆转座事件为主(占55.7%),与人类和类人猿存在显著差异,平均每只猕猴携带16.9个对蛋白质编码序列有高影响的罕见SV。该研究为猕猴生物医学研究提供了重要资源,并促进了灵长类泛基因组的发展。
在生物医学研究领域,猕猴因其与人类密切的进化关系而成为不可或缺的临床前模型。虽然猕猴的短核苷酸变异驱动的遗传多样性已被广泛研究,但结构变异(SV)的研究却相对滞后。结构变异作为长度大于50个碱基对的大规模基因组改变,在遗传变异中占据重要地位,甚至比单核苷酸变异(SNV)贡献更多的可遗传变异。在人类中,结构变异与多种疾病相关,包括癌症、类风湿关节炎、1型和2型糖尿病、注意缺陷多动障碍和自闭症等。
然而,对猕猴结构变异的了解却十分有限。以往的研究多集中于跨物种比较分析,且样本量较小,难以全面揭示物种内结构变异的程度和意义。这种认知差距严重制约了基于猕猴模型的生物医学研究进展。由于猕猴的核苷酸多样性是人类的2.5倍,因此需要在更大规模的群体中进行SV的发现和基因分型。
为了解决这一问题,Ray等人开展了一项创新性研究,成果发表在《Genome Biology》上。研究人员采用多阶段策略,首先对59只印度起源的猕猴进行长读长测序,识别结构变异,随后在2,645只具有短读长全基因组测序数据的猕猴群体中进行靶向基因分型,创建了迄今为止最大的非人灵长类动物SV数据集。
研究方法上,团队首先从三个不同繁殖 colony 的59只印度起源猕猴中提取高质量基因组DNA,分别采用PacBio CLR(连续长读长)和CCS(环状一致性测序)平台进行测序。序列比对至最新猕猴参考基因组MMul_10后,使用三种SV识别工具(pbsv、Sniffles2和cuteSV)进行比较,最终基于准确性评估选择了pbsv的结果。为进行群体规模分析,他们利用Paragraph工具对2,645只猕猴的Illumina短读长数据进行靶向SV基因分型。此外,还开发了基于SNV的地理起源评分工具,用于分析SV的群体结构。功能注释则通过SnpEff、liftOver工具以及与人类数据库(gnomAD、ClinVar)的比较完成。
研究人员选择了59只印度起源的猕猴,包括两个家庭 trio 用于质量控制。测序数据特征显示,CCS数据平均产生2,646,176条读长,中位读长为12,222 bp;而CLR数据平均产生6,682,217条读长,中位读长为22,654.5 bp。通过对三种SV识别工具的比较评估,发现pbsv在基因分型准确性方面表现最佳,与基于SNV的亲缘关系系数高度一致。
研究最终识别出339,334个高质量SV,其中插入(61.1%)和缺失(31.3%)是最主要的类型。83.1%的SV长度小于350 bp,而大于10 kb的SV有1,232个。特别值得注意的是,猕猴SV主要由Alu元件(约330 bp)主导,占所有SV的66.0%,而LINE元件(约6 kb)占10.8%。这种以Alu逆转座为主的SV形成模式与人类和类人猿(移动元件插入约占15%)存在显著差异。
SV在基因组中的分布不均匀,大多数常染色体上的SV密度约为100个/兆碱基,但19号染色体是个例外,其SV密度高出近三倍,主要由Alu元件增加驱动。在染色体内部,端粒附近和MHC区域(4号染色体)以及11号和18号染色体着丝粒附近存在SV热点区域。
研究表明,利用Paragraph对短读长数据进行靶向SV基因分型可获得高度准确的基因型。大多数SV在超过75%的样本中被成功识别,每只猕猴平均检测到79,737.1个SV。与PacBio数据相比,短读长数据对200-10,000 bp长度范围内的SV识别准确率较高,但对大于10,000 bp的SV识别存在局限。
通过对1,521只无关猕猴的SV数据进行主成分分析(PCA),发现PC1解释了45.51%的方差,明显区分了印度起源和中国起源的猕猴群体,繁殖中心引起的分层效应则相对较弱。等位基因频率分析显示,大多数SV较为罕见(33.2%的等位基因频率<0.05),且不同SV类型的等位基因频率分布存在差异。
功能分析表明,SV在外显子中的分布比SNV更为稀少(分别占0.3%和2.7%),支持了外显子SV受到纯化选择的观点。 odds ratio(比值比)检验证实了外显子区域SV的负向选择,而SINE/LINE元件中SV则呈现富集。研究成功将约50%的缺失、重复和倒位,以及75%的插入比对到人类基因组(GRCh38),发现718个SV与人类gnomAD SV数据集重叠,3个SV与人类ClinVar变异几乎完全相同。
研究还发现了一些具有潜在功能影响的大型SV,如影响CD1C基因的65,256 bp倒位,以及导致CNTN6和MIA3基因大片段缺失的SV。其中,MIA3基因的5,452 bp缺失可能为人类相关综合征提供动物模型。
该研究通过长读长测序发现和短读长靶向基因分型的组合策略,成功实现了猕猴结构变异的群体规模表征。研究不仅揭示了猕猴SV以Alu逆转座为主的独特景观,还证实了SV在猕猴群体中存在与SNV相似的地理起源相关结构。平均每只猕猴携带71,450.7个SV,其中平均有16.9个罕见SV预计对蛋白质编码序列产生高影响。
这项研究为理解结构变异在猕猴生物医学研究中的作用提供了重要资源,其研究策略也可作为其他模式生物SV研究的蓝图。随着基因组组装质量的不断提高和泛基因组图的发展,对结构变异的准确识别和解释将变得更加精确和全面。这些进展将极大地促进我们对非人灵长类动物遗传多样性的理解,并推动其在生物医学研究中的更有效应用。
研究的局限性在于59只猕猴的长读长数据集虽然规模可观,但并未涵盖猕猴全部的结构变异,靶向基因分型也仅限于已发现的SV集合。未来需要更多的长读长测序和SV发现来扩展该物种的已知SV目录。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号