GWAS SVatalog:利用结构变异进行GWAS位点精细定位的可视化工具

《Heredity》:GWAS SVatalog: a visualization tool to aid fine-mapping of GWAS loci with structural variations

【字体: 时间:2025年11月09日 来源:Heredity 3.9

编辑推荐:

  本研究针对GWAS(全基因组关联分析)中显著SNP(单核苷酸多态性)多位于非编码区、难以解释其功能机制的问题,开发了开源网络工具GWAS SVatalog。该工具整合了101例长读长测序数据鉴定的35,732个SV(结构变异)与GWAS Catalog中14,479种表型的116,870个SNP,通过计算并可视化SV与SNP间的LD(连锁不平衡),首次系统评估了常见SV与人类性状的关联。研究发现SV更易重叠调控元件,且与GWAS SNP LD较弱的SV更常重叠CpG岛和启动子。工具成功应用于铁水平、屈光不正和阿尔茨海默病等性状的GWAS位点精细定位,为疾病病因研究提供了新视角。

  
在遗传学研究领域,全基因组关联分析(Genome-Wide Association Studies, GWAS)已成为探索复杂性状遗传基础的利器。通过扫描数百万个单核苷酸多态性(Single Nucleotide Polymorphisms, SNPs),科学家们成功鉴定了大量与疾病风险、生理指标等表型相关的遗传位点。然而,一个令人困惑的现象逐渐浮现:约93%的GWAS显著信号位于基因组的非编码区域,这些区域不直接编码蛋白质,其生物学功能往往难以直接解读。更深入的问题在于,SNPs本身只能代表基因组变异的一部分,许多重要的遗传变异形式——如大片段的结构变异(Structural Variations, SVs)——可能在GWAS信号背后扮演着更为直接的因果角色,但由于技术限制,这些变异在传统GWAS中难以被全面检测。
结构变异通常指长度在50bp到数Mb之间的DNA序列变化,包括插入、缺失、重复和倒位等类型。由于它们通常涉及大片段的DNA改变,SVs对基因功能的影响往往比SNPs更为显著:可能改变基因的拷贝数、破坏调控元件、甚至影响染色体的三维结构。然而,SVs的检测面临巨大技术挑战。传统的短读长测序技术由于读长限制,难以准确识别大片段变异,特别是在重复序列区域。尽管长读长测序技术的出现显著提升了SV检测能力,但如何将SV信息与现有的GWAS资源有效整合,仍然是一个亟待解决的问题。
正是在这一背景下,由多伦多病童医院领衔的研究团队开发了GWAS SVatalog这一创新性网络工具。该研究近期发表于《Heredity》杂志,旨在通过可视化SV与GWAS显著SNPs之间的连锁不平衡(Linkage Disequilibrium, LD)关系,帮助研究人员发现那些可能被GWAS信号"标记"但未被直接检测的潜在功能性SVs。
为开展这项研究,研究人员利用了一个独特的队列资源——囊性纤维化加拿大个性化治疗项目(Cystic Fibrosis Canada-SickKids Program in Individualized Therapy, CFIT)。该队列包含101名囊性纤维化患者,研究人员同时采用了PacBio连续长读长(Continuous Long Read, CLR)和10X Genomics链接读长(Linked-Read)两种测序技术对样本进行全基因组测序。这种双平台测序策略相当罕见,其优势在于能够通过技术互补提高SV检测的可靠性和稳健性。
关键技术方法包括:1)基于101例CF患者队列(主要為欧洲裔)的双平台测序数据(PacBio CLR和10X Genomics);2)采用多款SV检测软件(pbsv、Sniffles、Long Ranger等)的组合调用策略;3)建立三步合并流程整合不同平台的SV检测结果;4)计算35,732个SVs与GWAS Catalog中116,870个显著SNPs的连锁不平衡统计量(r2和D');5)开发基于Plotly Dash和Python的交互式网络可视化工具。

SV检测与验证

研究人员建立了一套完整的SV检测流程(图1),通过合并PacBio CLR和10XG两个测序平台的检测结果,共识别出129,485个长度大于50bp的独特SVs,平均大小为977bp。
其中插入和缺失的数量分别为60,591和63,301个,高于先前报道的全基因组长读长SV数据集。为确保证据质量,研究人员仅保留在至少三个个体中出现的SVs,最终获得87,183个独特SVs用于后续分析。
通过等位基因频率比较,研究证实除7号染色体上的CFTR基因座外,该CF队列的遗传背景与1000 Genomes欧洲人群无显著差异,确保了结果对普通欧洲裔人群的可推广性。与三个公共长读长SV数据集的比较显示,85%的常见SVs(非参考等位基因频率>0.1)在其他数据集中也得到了验证,证明了检测结果的可靠性。

SV的基因组分布特征

SV长度分布显示出300bp和6,000bp处的明显峰值,分别对应Alu和LINE元件。SVs在端粒区域密度较高,且大多数单例SV在此区域被检测到。功能注释分析发现,增强子频繁与SVs重叠,且73,655个独特常见SVs位于拓扑关联域(Topologically Associated Domains, TADs)内部,而仅有72个SVs重叠TAD边界,后者可能对基因表达产生功能性影响。
关联分析显示,较高的SV非参考等位基因频率(Non-reference Allele Frequency, NAF)与较低的CpG岛和启动子重叠几率相关。SV类型与调控特征重叠显著相关,且SV大小和附近GWAS SNPs数量越多,SV与各调控特征重叠的几率越高。特别值得注意的是,与GWAS SNPs连锁不平衡较弱的SVs(基于D'或r2)更倾向于重叠CpG岛和启动子,这支持了某些GWAS信号可能由影响基因功能的SVs驱动的假说。

GWAS SVatalog工具应用

GWAS SVatalog提供了直观的查询界面,用户可通过表型或基因组区域进行检索。工具可视化展示了选定SV与GWAS显著SNPs的LD关系(图3),其中图3A显示目标SV与所有表型GWAS显著SNPs的LD,图3B则聚焦于特定表型的GWAS信号。
在35,732个SVs中,23,577个与GWAS SNPs存在高度LD(D'≥0.8),其中9,438个位于基因内部的SVs与GWAS相关位点存在强LD。研究人员通过系统筛选,成功复现了已知的年龄相关性黄斑变性(Age-related Macular Degeneration, AMD)致病SV——位于ARMS2基因3'UTR区域的缺失变异(图4A),证明了工具的有效性。
更重要的是,研究发现了三个新的候选SVs可能解释已知GWAS信号:1)3号染色体TF基因3'UTR区域的1317bp缺失(图4B),与血清转铁蛋白水平GWAS中的显著SNP rs3811647存在强LD(D'=0.952),该SV为SINE-VNTR-Alu(SVA)反转录转座子,可能影响基因表达调控;2)6号染色体KCNQ5基因内含子1区域的54bp缺失(图4C),与屈光不正GWAS信号rs7744813完全连锁(D'=1),位于组蛋白标记H3K4me1和H3K27ac区域内,可能影响基因表达;3)7号染色体TMEM106B基因3'UTR区域的323bp缺失(图4D),与阿尔茨海默病GWAS信号rs1990622完全连锁(D'=1),该SV可能通过影响表观遗传调控元件发挥作用。

研究结论与讨论

GWAS SVatalog的推出填补了GWAS精细定位中的重要空白,首次实现了大规模SV与GWAS信号的系统整合和可视化。研究通过严谨的技术验证表明,基于欧洲裔CF患者队列产生的SV数据具有良好的可靠性和泛化能力,为欧洲裔人群的GWAS研究提供了宝贵资源。
然而,研究也存在若干局限性。首先,基于参考基因组比对的SV检测仍受参考偏倚影响,可能导致复杂SVs的漏检。其次,当前SV检测软件难以完全准确界定变异边界,导致研究中将所有SVs视为二等位形式处理,可能高估了SV与SNP间的LD程度。此外,工具目前主要适用于欧洲裔人群,在其他族群中的适用性有待通过纳入更多样化的SV数据集来扩展。
尽管存在这些限制,GWAS SVatalog代表了向更全面理解GWAS信号生物学机制迈出的重要一步。通过将SVs纳入GWAS位点精细定位的视野,该工具有望推动更多疾病相关功能性变异的发现,最终促进对复杂性状遗传基础的深入理解。随着长读长测序技术的不断进步和泛基因组参考的推广应用,未来GWAS SVatalog的持续更新将进一步提升其在多样化人群中的适用性和检测能力,为精准医学研究提供更强有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号