GENEasso:基于多方法整合GWAS摘要数据的疾病-基因关联可信资源库构建与应用
《Nucleic Acids Research》:GENEasso: a curated resource of credible disease–gene associations across complex diseases from GWAS summary statistics
【字体:
大
中
小
】
时间:2025年10月31日
来源:Nucleic Acids Research 13.1
编辑推荐:
本文推荐研究人员开发的GENEasso平台,致力于解决单一基因水平关联分析方法(如TWAS)的局限性。该研究整合MAGMA、PASCAL、SMR、DEPICT等七种方法,对8226套GWAS摘要数据进行分析,生成726,122个高置信度疾病-基因关联,支持跨方法共识评分、组织特异性富集和跨人群分析,为复杂疾病遗传机制解析提供多维度证据支撑。
在人类遗传学研究领域,全基因组关联研究(Genome-Wide Association Studies, GWAS)已发现数千个与复杂性状和疾病相关的遗传变异。然而,传统的单核苷酸多态性(Single-Nucleotide Polymorphism, SNP)水平分析存在明显局限:多数显著信号位于非编码区,生物学意义难以阐释;且复杂疾病常由多个微效变异共同驱动,而GWAS通常独立评估每个变异,未能充分捕捉基因水平的协同效应。
为突破这一瓶颈,基因水平关联分析(gene-based association analysis)应运而生。这类方法通过聚合基因内多个SNP的信号,提升统计效能和生物学可解释性。虽然目前已出现转录组关联研究(Transcriptome-Wide Association Study, TWAS)等特定方向的数据库,但TWAS仅代表其中一类方法且主要依赖表达介导的效应,其他基因水平方法在识别疾病相关基因中同样发挥关键作用。现有资源往往局限于单一方法类型(如TWAS-hub、webTWAS)、文献挖掘(如TWAS Atlas、DisGeNET)或特定表型(如Brain Catalog),缺乏跨方法、跨人群、跨疾病的系统性整合平台。
针对这一空白,南京医科大学等机构的研究团队在《Nucleic Acids Research》发表题为“GENEasso: a curated resource of credible disease-gene associations across complex diseases from GWAS summary statistics”的研究,开发了GENEasso平台。该平台集成七种代表性基因水平统计方法,对8226套精心整理的GWAS摘要数据进行系统分析,建立包含726,122个高置信度疾病-基因关联的数据库,支持跨方法一致性评估、组织特异性富集优先排序和五大人群(AFR、AMR、EAS、EUR、SAS)的分层分析,为研究人员提供一站式基因水平关联探索与验证资源。
关键技术方法方面,作者主要运用七大分析流程:①MAGMA基于连锁不平衡(Linkage Disequilibrium, LD)的多标记回归;②PASCAL通过解析近似法聚合SNP水平信号;③SMR整合GWAS与表达数量性状位点(expression Quantitative Trait Loci, eQTL)数据推断因果表达效应;④DEPICT通过共调控表达谱进行基因优先排序;⑤RWAS基于增强子、启动子等调控元件的关联映射;⑥CWAS利用染色质状态注释改进基因优先排序;⑦LDAK-GBAT采用线性混合模型框架评估基因水平遗传力。所有分析均基于1000 Genomes Phase 3参考面板进行等位基因协调,并使用GTEx v8(47个组织)参考面板进行组织特异性富集分析。
GENEasso当前版本整合8226套GWAS摘要数据,涵盖2491个独特实验因子本体(Experimental Factor Ontology, EFO)性状和14个复杂人类性状类别。其中4294个数据集来自英国生物样本库(UK Biobank, UKBB)队列,3932个来自非UKBB队列,95.34%的研究基于欧洲人群。通过七种方法共计算726,122个显著疾病-基因关联(Bonferroni校正P<0.05),平均每个性状关联90.44个基因。在重复出现频率最高的20个基因中,6个位于主要组织相容性复合体(Major Histocompatibility Complex, MHC)区域之外,其中BIRC3调控炎症和细胞死亡信号通路,MIS18BP1控制着丝粒许可和染色体分离,这些核心生物学过程解释了其在多种非MHC位点中的广泛多效性。
研究团队通过评估不同方法间显著关联的重叠情况发现,平均38.83%的关联至少被两种方法支持,20.08%被至少三种方法共同识别。成对杰卡德指数(Jaccard index)范围为0.01(RWAS与DEPICT间)至0.39(MAGMA与PASCAL间),表明不同方法因遗传架构和模型框架差异常优先识别不同信号。MAGMA与PASCAL共识别每个性状平均30.93个基因,而四种及以上方法共同支持的高置信度性状-基因关联达14,859个。这种适度重叠凸显了整合多方法框架的必要性,GENEasso通过统一平台使研究人员能够利用不同方法的互补优势。
GENEasso采用模块化客户端-服务器架构,前端基于Vue.js框架开发,后端采用Spring Boot(Java)框架,数据存储于MySQL数据库。平台包含七大核心模块:首页、疾病、基因、搜索、下载、分析和教程。疾病页面支持通过EFO本体树或搜索框浏览性状,每个数据集均标注唯一疾病关联ID、标准化性状标签、样本量、人群、PubMed标识符(PubMed Identifier, PMID)和基因关联数量。基因页面展示至少与一个性状关联的基因信息,包括基因符号、Ensembl ID、基因组位置和关联性状数量。搜索页面支持跨性状、基因符号、Ensembl ID、基因位置和出版物的灵活查询,所有表格均可排序、过滤和下载。
GENEasso网络服务器模块支持用户上传自定义GWAS摘要数据,进行基因水平关联分析和性状特异性组织计算。分析模块提供六种方法选择(MAGMA、PASCAL、SMR、DEPICT、CWAS和LDAK-GBAT),其中RWAS因计算强度大被替换为FUSION-TWAS。服务器自动识别列标识符(如rsID、P值、β值),允许用户选择人群背景(EUR、EAS、AFR、SAS、AMR或混合)和UKBB包含状态。组织计算模块采用deTS算法评估47个GTEx组织的富集情况,显著关联组织(P<0.05)以红色高亮显示。每个提交任务分配唯一作业ID,用户可通过“作业搜索”页面实时跟踪进度并获取结果。
GENEasso通过整合七种互补的基因水平关联方法,建立了统一的分析框架,使研究人员无需专业编码知识或复杂软件安装即可探索多角度分析结果。与TWAS特异性资源相比,该平台结合统计、调控和染色质活性方法,提供跨五大人群的本体感知分析,支持基于本体论的性状组织,显著提升基因水平关联研究的可重复性和实用性。平台还能通过输入GWAS摘要数据解码性状特异性组织,实现生物学相关组织中的基因优先排序。
尽管如此,该资源仍存在一定局限:虽然包含人群特异性结果,但数据覆盖仍偏向欧洲来源GWAS,限制非欧洲人群疾病-基因关联的分辨率;目前专注于常见变异关联,尚未纳入罕见变异负荷分析结果;组织计算准确性受eQTL参考面板可用性和一致性的限制,尤其在非欧洲人群组织中。未来计划通过纳入更多非欧洲人群高质量GWAS数据、扩展罕见变异方法支持、探索跨模型共识构建策略以及整合甲基化QTL、染色质可及性数据和单细胞组织特异性等分子注释,进一步提升关联分辨率和生物学可解释性。
综上所述,GENEasso作为首个系统整合多方法基因水平关联分析的平台,通过统一流程处理8226套GWAS摘要数据,建立大规模疾病-基因关联知识库,支持跨方法、跨性状、跨人群的比较分析。其数据库模块提供丰富的关联数据探索功能,网络服务器模块降低分析技术门槛,使研究人员能够在自定义数据上实现可重复的基因优先排序。这一资源显著推进复杂疾病遗传架构解析从变异水平向基因水平的转变,为功能验证和机制研究提供重要线索。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号