多重实例精细定位(Multiple Instance Fine-mapping, MIFM):利用深度序列模型预测因果调控变异(causal regulatory variants)

《PLOS Genetics》:Multiple instance fine-mapping: Predicting causal regulatory variants with a deep sequence model

【字体: 时间:2026年06月30日 来源:PLOS Genetics 3.9

编辑推荐:

  识别因果遗传变异(causal genetic variants)的计算方法仍是一个开放性问题。若无大规模金标准数据集则无法训练端到端预测模型,且全基因组关联分析(Genome-Wide Association Study, GWAS)结果受连锁不平衡(Lin

  
识别因果遗传变异(causal genetic variants)的计算方法仍是一个开放性问题。若无大规模金标准数据集则无法训练端到端预测模型,且全基因组关联分析(Genome-Wide Association Study, GWAS)结果受连锁不平衡(Linkage Disequilibrium, LD)干扰,基因表达数据集不含个体水平遗传变异信息。研究人员提出多重实例精细定位(Multiple Instance Fine-mapping, MIFM)——一种多重实例学习(Multiple Instance Learning, MIL)目标函数,通过将推测因果变异按其与LD得分的相关性分组来克服强标签缺失问题。利用MIFM,研究人员在聚合超过13,000项GWAS的数据集上训练了深度分类器,基于底层DNA序列预测因果变异。研究人员通过构建多基因风险评分(Polygenic Risk Score, PGS)验证了MIFM优先排序的变异,其在不同目标祖先群体间具有更好的迁移性。此外,研究人员展示了MIFM可用于解离高度相关变异的效应量,以更好地对GWAS结果进行精细定位(fine-mapping)。
《PLOS Genetics》论文解读:Multiple Instance Fine-mapping——利用深度序列模型预测因果调控变异
一、研究背景与动机
全基因组关联分析(Genome-Wide Association Study, GWAS)是鉴定与表型或疾病相关遗传变异的有力工具,但受连锁不平衡(Linkage Disequilibrium, LD)影响,显著关联位点中仅极小比例为真正因果变异(causal variants),其余多为与其处于LD中的假性关联标签SNP(tag SNP)。传统统计精细定位(fine-mapping)方法(如ABF、CAVIARBF、FINEMAP、PAINTOR、SuSiE等)依赖GWAS汇总统计量、功能注释及LD结构,需预设因果变异数目且对强LD敏感,常产生较大可信集(credible set)。基于DNA序列的深度学习模型(如Basenji2、DeepSEA、Enformer)虽独立于GWAS统计量和LD,但通常用参考基因组训练,缺乏群体SNP水平变异信息,且因缺乏SNP分辨率金标准标签难以直接训练端到端因果变异分类器。鉴于GWAS Catalog和CAUSALdb等数据库已积累海量关联变异数据,研究人员提出以多重实例学习(Multiple Instance Learning, MIL)框架绕过实例级标签缺失问题,直接用底层DNA序列训练模型预测非编码因果变异,即多重实例精细定位(Multiple Instance Fine-mapping, MIFM)。
二、主要关键技术方法概述
研究人员从CAUSALdb2数据库获取13,709项GWAS汇总统计量(GRCh37),筛选超过260万显著关联变异,经clumping划分为独立LD块(LD-block),进一步按初/次级信号拆分并剔除少于10个变异的块作为正包(positive bag,假设每包至少含一个因果变异);负包(negative bag)选自未出现在CAUSALdb2中的常见变异(MAF≥5%)且距任一CAUSALdb2变异>128 bp,设为单元素包。输入为变异中心±256 bp(共512 bp)one-hot编码DNA序列,引入第6个特殊token"V"标记SNP位置以支持随机偏移数据增强。模型采用修改版Basenji2卷积神经网络(CNN,4个stage1块、2个stage2块、64滤波器、单输出),包内各实例预测值取max池化为包级预测,以二元交叉熵训练;用Adam优化器(学习率1×10-4,指数衰减每epoch 0.95),dropout=0.5,序列随机偏移≤8 bp,训练5个不同随机种子模型并蒸馏为学生模型。验证采用UK Biobank(UKB)欧洲祖先GWAS的20个性状,构建多基因风险评分(Polygenic Risk Score, PGS)在非欧祖先亚群评估迁移性;通过TF-MoDISco做基序发现(motif discovery)与DeepLIFT归因分析;对UKB自算4个性状GWAS做条件联合回归检验MIFM筛选高度相关变异解离效应量的能力。
三、研究结果
3.1 MIFM variants are enriched for enhancer, repressed, and silencer chromatin signatures(MIFM优先变异富集增强子、抑制区及沉默子染色质特征)
研究人员用GenoSTAN染色质状态注释和silencerDB对CAUSALdb2变异与MIFM高分变异做富集分析。结果显示MIFM优先变异显著富集强/弱增强子元件(Enhancer,最高OR可达1.16)、抑制区(Repressed regions,OR 1.02–1.13)及抑制-增强子区(Repressed-enhancer regions,OR 1.01–1.13),显著耗竭低信号区与转录延伸区;MIFM优先的抑制/增强子区同时富集silencer注释(H3K27me3相关)及增强子特征,提示模型识别出具上下文依赖性调控功能的调控元件。
3.2 Syntax analysis of a MIFM trained model(训练后MIFM模型的序列模式语法分析)
研究人员用Transcription-Factor Motif Discovery from Importance Scores(TF-MoDISco)从训练序列DeepLIFT归因得分中识别出161个独特DNA模式(67个正归因模式、94个负归因模式),部分匹配已知人源转录因子(Transcription Factor, TF)结合基序(如ARID3A)。对含ARID3A匹配模式的序列做计算机诱变(in silico mutagenesis)——将正模式替换为负模式或反之——发现负模式嵌入正背景会降低MIFM评分均值与分布,正模式嵌入负背景轻微升高评分但不足以使非因果序列被高评分为因果,表明变异周边调控语境为因果判定的必要条件而非充分条件。
4.1 Polygenic risk scores created with MIFM transfer better to non-European ancestries(基于MIFM构建的PGS在跨非欧祖先群体中具更好迁移性)
研究人员以20个欧裔GWAS在UKB中非欧亚群(AFR、AMR、CSA、EAS、MID)评估PGS。每LD块选MIFM评分最高变异(对比raw p-value、CADD、Basenji2、DeepSEA-SEI、Enformer及7种统计精细定位注释)构建PGS。100个测试场景中MIFM平均R2=0.042居首,显著优于多数基线(15%场景显著更优,3%更差),对非洲(AFR)祖先改善最明显(19%更优,1%更差);在每区块选前5或10变异时统计精细定位工具性能提升,部分场景与MIFM相当或更优,但单变异选取时MIFM具稳健跨祖先优势。
4.2 MIFM enables discovery of additional GWAS signals(MIFM可辅助发现额外GWAS信号)
研究人员对UKB自算身高、红细胞计数、收缩压、跟骨骨密度GWAS做条件分析:对每个lead SNP的高LD(r2≥0.9)次级变异分别用全变量联合模型、p值阈值筛选模型、MIFM评分筛选模型拟合联合回归。MIFM筛选子集联合模型检出47个显著变异(全变量基线32个),含2例边际估计未达显著但在联合模型中显著的变异及更多二级信号(secondary signals),表明MIFM能有效从高LD变异集中筛选候选因果变异供条件检验,辅助解离强相关变异效应量。
四、讨论与结论总结(翻译浓缩)
研究人员提出多重实例精细定位(Multiple Instance Fine-mapping, MIFM)框架,将GWAS关联LD块视为MIL正包训练深度序列模型直接从DNA序列预测非编码变异因果性,避开实例级金标准标签缺失及传统精细定位对汇总统计量与LD的依赖。在超13,000项GWAS数据训练的模型可使多基因风险评分(PGS)跨祖先迁移性提升,并能辅助条件分析解离高LD变异效应以发现额外GWAS信号。MIFM可用新增GWAS结果持续微调。该框架弥补了传统统计精细定位与现有序列模型局限,证明大规模GWAS弱标签数据结合多重实例学习可训练具生物学意义的因果变异优先排序模型,为下游机制研究与精准遗传风险评估提供新工具。论文发表于《PLOS Genetics》。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号