基于Nextflow的nf-RASQUAL流程:小样本量下大西洋鲑分子数量性状位点的高效解析
《BMC Genomics》:A nextflow pipeline for molecular quantitative trait loci mapping in small sample size datasets with an application in Atlantic salmon
【字体:
大
中
小
】
时间:2025年11月22日
来源:BMC Genomics 3.7
编辑推荐:
本研究针对水产基因组学中因样本量限制导致分子数量性状位点(molQTL)研究滞后的瓶颈,开发了基于Nextflow的nf-RASQUAL自动化流程。通过整合RASQUAL算法与EigenMT多重检验校正,在12尾大西洋鲑多组织数据中成功鉴定出数百个表达数量性状位点(eQTL)和染色质可及性数量性状位点(caQTL),发现非编码区变异主导调控机制,且caQTL更易破坏转录因子 motif。该工具为水产养殖物种的遗传调控机制研究提供了高效解决方案。
随着全球人口持续增长,如何利用更少自然资源生产充足营养食物已成为紧迫课题。在这一背景下,解析农业物种的遗传调控机制对于通过遗传学手段改良生产性状具有重要意义。尽管基因组关联分析(GWAS)已在人类疾病和农业复杂性状研究中取得丰硕成果,但大多数关联位点位于基因组非编码区域,使得理解其调控机制变得困难。分子数量性状位点(molQTL)作图通过将遗传变异与分子表型(如基因表达、染色质可及性等)关联,为解读GWAS结果提供了有效途径。
虽然人类和模式生物的molQTL研究已取得显著进展,但水产基因组学领域仍存在明显研究空白。这主要是由于传统molQTL方法通常需要大样本量才能获得足够的统计功效,而水产研究往往受限于样本规模。AQUA-FAANG联盟虽然为欧洲六种主要养殖鱼类生成了大规模多组织基因型和表型数据集,但如何在小样本条件下进行可靠分析仍是关键挑战。
针对这一难题,挪威生命科学大学的Dat Thanh Nguyen等研究人员在《BMC Genomics》上发表了题为"A nextflow pipeline for molecular quantitative trait loci mapping in small sample size datasets with an application in Atlantic salmon"的研究论文。他们开发了名为nf-RASQUAL的可扩展、可重复分析流程,专门用于小样本数据集中的molQTL作图。
研究团队通过整合Nextflow工作流框架和RASQUAL(Robust Allele-Specific Quantitation and Quality Control)方法,建立了一个全自动QTL作图流程。RASQUAL是一种概率框架,以其在小样本数据集中有效检测molQTL的能力而闻名。新开发的nf-RASQUAL不仅支持全自动QTL作图,还包含了稳健的多重检验校正过程。
关键技术方法包括:利用AQUA-FAANG联盟提供的12尾大西洋鲑多组学数据(涵盖脑、性腺、肝、肌肉和鳃五种组织),通过等位特异性VCF文件生成、表型数据主成分分析(PCA)校正混杂因素、rasqualTools包计算偏移量,以及结合EigenMT进行基于连锁不平衡(LD)的独立检验数估计,最终通过Bonferroni校正和置换检验控制错误发现率(FDR)。
研究人员对约140万SNP(单核苷酸多态性)进行了eQTL关联分析,涉及脑组织26,708个基因、性腺组织25,666个基因、肝组织19,406个基因、肌肉组织18,629个基因和鳃组织25,960个基因。caQTL分析则针对脑组织175,099个染色质可及性峰值(caPeak)、性腺组织317,837个caPeak、肝组织240,388个caPeak和肌肉组织324,642个caPeak。
通过比较观测数据与置换数据的Q-Q图,研究发现观测数据的检验统计量在全基因组范围内显著高于置换数据的预期分布,尤其是在右尾部分。这一结果表明观测数据中的关联信号并非随机误差造成,证实了分析结果的可靠性。
经过EigenMT多重检验校正后,研究发现在观测数据中,脑组织鉴定出711个显著eGene(具有显著eQTL的基因),鳃组织681个,性腺组织488个,肝组织276个,肌肉组织263个。caQTL分析结果显示,脑组织有507个显著ePeak(具有显著caQTL的染色质可及性峰值),性腺组织220个,肝组织308个,肌肉组织131个。相比之下,置换数据中所有组织仅发现极少量显著特征,证实了观测结果具有生物学意义而非随机噪声。
通过Ensembl变异效应预测器(VEP)对eGene和ePeak的lead变异(在并列情况下随机选择一个)进行注释分析,发现这些变异主要分布在内含子区、基因间区、基因上下游区域以及3'和5'非翻译区(UTR)。
内含子变异在所有组织和QTL类型中均占主导地位,例如脑组织caQTL中占59.76%,脑组织eQTL中占58.51%,鳃组织eQTL中占57.42%,性腺组织caQTL中占62.27%,性腺组织eQTL中占61.48%。基因间区变异是第二常见的类别,但在不同组织和QTL类型间存在变异性。上游基因变异出现频率较低,但在各组织中表现一致,约占lead SNP的5-13%。下游区域和非翻译区(3'和5' UTR)变异出现频率更低,通常占所有变异的2-7%。
研究人员通过计算FIMO p值的对数比来评估变异等位基因间的motif匹配差异,分析JASPAR 2020 CORE脊椎动物非冗余数据库中的746个转录因子motif。
结果显示,与不显著的caPeak相比,显著caPeak在脑组织(p=0.010)、肝组织(p=0.001)和肌肉组织(p=0.006)中的motif破坏率显著富集,而性腺组织(p=0.890)无显著差异。标准化分析显示,ePeak的motif破坏率在脑组织(1.11 vs. 0.996)、肝组织(1.19 vs. 1.004)和肌肉组织(1.24 vs. 1.004)中均高于非ePeak,而性腺组织(0.986 vs. 0.996)无此富集现象。这表明caQTL lead SNP在脑、肝和肌肉组织中更可能破坏转录因子motif。
研究人员还分析了eQTL和caQTL lead SNP在脑、性腺、肝和肌肉组织中的共定位情况。共定位定义为lead SNP间存在强连锁不平衡(r2 > 0.7)。
结果显示,脑、性腺和肝组织中存在显著共定位富集,富集比分别为6.42、10.20和10.23,且均具有统计学意义(置换检验p < 0.05)。肌肉组织由于统计功效有限,未发现显著共定位。这一发现表明,在脑、性腺和肝组织中,基因表达和染色质可及性可能受到共享调控机制的影响。
研究结论指出,nf-RASQUAL流程成功实现了在仅有12个个体的小样本条件下进行可靠的molQTL作图。虽然这是此类分析的样本量下限,统计功效有限,但参考原始RASQUAL论文中的功效基准(在5个个体条件下可恢复约22%的已知eQTL),该流程为小样本研究提供了实用工具。
这项研究通过引入nf-RASQUAL流程,证明了其在多组织QTL作图中的可靠性和可扩展性。motif破坏和共定位分析的整合增强了对大西洋鲑遗传变异形成的调控机制的理解。该流程的全自动化工作流和大规模测试能力,使其成为研究各种生物系统(特别是AQUA-FAANG项目涉及的水生物种)遗传调控的宝贵工具,有望推动水产养殖物种遗传改良研究的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号