HaploExplore:针对低频等位基因单倍型块检测的新工具及其在进化基因组学和GWAS中的应用
《NAR Genomics and Bioinformatics》:HaploExplore, a software specifically designed for the detection of minor allele (MiA-) haploblocks
【字体:
大
中
小
】
时间:2025年12月11日
来源:NAR Genomics and Bioinformatics 2.8
编辑推荐:
本研究针对现有单倍型块检测软件无法区分主次等位基因影响的瓶颈,开发了专门检测低频等位基因单倍型块(MiA-haploblocks)的HaploExplore软件。该工具通过引入携带百分比(CP)参数,结合传统连锁不平衡(LD)指标(r2和D'),能够精准识别与疾病易感性/抗性相关的低频等位基因簇。研究表明,该软件在分析≥100人群体时结果收敛,且运行效率显著优于同类工具,为复杂性状遗传机制研究提供了新范式。
在基因组学研究领域,单倍型块(haploblocks)作为揭示进化过程和人群遗传变异的重要指标,长期以来为科学家理解疾病易感性、基因调控机制提供了关键视角。然而传统单倍型块检测软件存在明显局限——它们未能区分主要等位基因(major allele)和次要等位基因(minor allele)在遗传关联中的差异化作用。这种缺陷使得许多与疾病相关的低频变异被忽视,特别是在研究复杂性状遗传架构时,可能错过关键信号。
事实上,低频等位基因在进化过程中往往具有特殊意义。例如CCR5基因的D32突变可能因增强欧洲人对鼠疫的抗性而被自然选择保留;β-珠蛋白基因的βs等位基因虽可抵御疟疾却增加镰刀型贫血症风险。研究表明,低频等位基因更易与疾病易感性/抗性相关,且疾病相关等位基因多为低频衍生等位基因。因此,开发能精准捕捉低频等位基因单倍型块(MiA-haploblocks)的工具,成为解决当前遗传学研究瓶颈的迫切需求。
为解决这一挑战,由Matilde Manetti和Samuel Hiet作为共同第一作者,Jean-Fran?ois Zagury领导的跨国研究团队在《NAR Genomics and Bioinformatics》发表了新型软件HaploExplore。该软件专门针对MiA-haploblock检测设计,通过创新性引入携带百分比(carrier percentage, CP)参数,结合传统连锁不平衡(linkage disequilibrium, LD)指标(r2和D'),实现了对低频等位基因共遗传模式的精准刻画。
研究团队采用法国DESIR流行病学队列的基因分型数据(500人染色体22数据,含125,956个SNPs)进行方法验证。通过三种计算模式(标准模式、列表SNP模式、穷举模式)的系统比较,证明HaploExplore在保持高效运算(染色体22分析<10分钟)的同时,能稳定识别具有生物学意义的MiA-haploblocks。特别值得注意的是,当样本量达到100-250人时,单倍型块大小和SNP数量分布呈现收敛趋势,表明该工具适用于中等规模人群的遗传学研究。
关键技术方法包括:基于滑动窗口算法的基因组分区策略(10 Mb窗口+5 Mb重叠),采用双链特异性CP计算公式(CPexact= CP1+ CP2)确保单倍型相位准确性,以及通过MAF相对阈值(MAFcut= αcut%× MAFcoreSNP)动态筛选候选SNPs。
Impact of the population size
通过分析25-500人不同规模子集发现,小样本(25-100人)会产生较大变异性,而≥100人样本能使单倍型块大小和SNP数量分布趋于稳定。排除<100 kb或≤4 SNPs的微小区块后,可见主要单倍型块类别在250人时达到完全收敛,证明工具具有稳健的群体适用性。
与法国/非洲裔美国人队列的跨人群比较显示,MiA-haploblocks在相同种群内具有高度一致性。该工具成功复现了既往研究中HLA-B*57:01相关HIV精英控制者的1.9 Mb单倍型块(含376个SNPs),验证了其识别已知疾病关联区块的能力。
运行时间分析表明,列表SNP模式效率最高(500人染色体22分析仅需6分钟),标准模式适中,穷举模式虽耗时较长(500人约20小时)但适用于全面扫描。运行时间与SNP数量呈线性关系,体现良好的可扩展性。
Comparison with other haploblock detection software
与PLINK、Big-LD、HaploBlocker等工具相比,HaploExplore是唯一专门针对MiA-haploblocks设计的软件。其独特优势在于:直接处理VCF文件、CP参数破解低频等位基因共遗传检测难题、提供交互式参数调整界面。传统LD方法(如Gabriel法)对MAF差异敏感,而基于序列相似性的HaploBlocker则忽略等位基因频率特异性。
研究结论强调,HaploExplore通过创新性整合CP参数与经典LD指标,解决了MiA-haploblock检测的技术空白。其模块化设计支持三种计算模式的灵活应用:标准模式适用于全基因组扫描,列表SNP模式专注特定基因座(如HLA区域),穷举模式适合复杂LD区域解析。该工具不仅能提升GWAS中低频变异信号的检测效能,对进化基因组学中自然选择痕迹的解读也具有重要价值。研究团队已在GitHub和Figshare平台开源软件,并开发了Streamlit交互界面以促进方法推广。
这项工作的核心意义在于将单倍型块分析从"频率不可知"推进到"频率导向"的新阶段,为解析复杂性状的遗传架构提供了更精细的视角。随着大规模生物库数据的持续积累,HaploExplore有望在精准医学和群体遗传学领域发挥重要作用,特别是在揭示跨人群疾病风险差异的分子基础方面展现独特价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号