基于FIND模型的人类近期适应性变异有害性与性状调控效应分层研究
《Genome Biology》:Stratifying variant deleteriousness and trait-modulating effect under human recent adaptation using the FIND model
【字体:
大
中
小
】
时间:2025年10月30日
来源:Genome Biology 9.4
编辑推荐:
本研究针对现有方法难以全面捕捉遗传变异对适应度和疾病易感性影响谱系的问题,开发了基于深度学习框架的FIND模型。该模型通过整合289种多组学特征,将基因组变异划分为固定/近固定(F)、中间/性状调控(I)、中性(N)和有害(D)四类,在区分性状调控等位基因与有害/中性变异方面表现出卓越性能。应用显示FIND能有效重分类临床意义不明变异(VUS),为解析遗传变异对人类健康的复杂贡献提供了新工具。
随着大规模基因组测序和全基因组关联研究(GWAS)的深入开展,科学家们已识别出大量与人类疾病和性状相关的遗传变异。然而,现有计算方法大多采用简单的二元分类策略(如致病性/中性),难以全面捕捉变异对生物适应度影响的连续谱系。特别值得注意的是,那些在人类近期适应过程中被自然选择保留的性状调控等位基因,往往具有中等频率和微效作用,既可能赋予环境适应优势,又与复杂疾病易感性相关,但现有工具缺乏有效识别这类变异的能力。
为突破这一瓶颈,研究团队在《Genome Biology》发表了题为"Stratifying variant deleteriousness and trait-modulating effect under human recent adaptation using the FIND model"的研究论文。该研究创新性地开发了FIND模型,通过整合变异适应度效应和衍生等位基因频率(DAF)谱系,将人类基因组变异划分为四个精细类别:固定/近固定变异(F)、中间/性状调控变异(I)、中性变异(N)和有害变异(D)。这一分类框架更贴合自然选择作用下变异演化的真实情况,为理解遗传变异对人类健康和疾病的复杂贡献提供了新视角。
研究采用了几项关键技术方法:首先构建了包含约200万个变异的大规模训练数据集,涵盖四种类别变异的平衡代表;系统整合了289种多组学注释特征,包括基因组序列信息、表观遗传信号、蛋白质编码效应、全基因组非编码效应和基因水平测量等五大类;利用注意力可解释表格学习(TabNet)深度学习框架进行多类别分类训练;应用SHAP值分析进行模型可解释性评估;并使用1000基因组计划(1KGP)、GWAS Catalog、ClinVar等多个独立数据集进行性能验证。
模型构建与性能评估显示,FIND在四分类任务中表现出色,平均接收者操作特征曲线下面积(AUROC)达0.970,精确召回曲线下面积(AUPR)达0.926。与AdaBoost和逻辑回归等传统机器学习方法相比,预测准确率提升6.6%-17.2%。通过将原始概率分数转换为Phred-like分数(PHRED scores),研究团队对全基因组86亿个可能单核苷酸变异(SNV)进行了系统评分,建立了完整的变异注释资源。
在性状调控效应识别分辨率方面,研究通过构建多祖先群体的独立测试集(HGLX、HTLX和HDLC)验证了FIND的泛化能力。值得注意的是,FIND_I在区分性状调控变异(GWAS Catalog来源)与有害变异(UK Biobank外显子组关联研究来源)方面表现卓越,而现有工具如CADD、Eigen等则呈现相反趋势,证实它们主要专注于有害/致病性预测,缺乏区分性状调控效应的能力。
对人类近期适应进化足迹的分析表明,FIND评分与群体遗传学指标高度一致。随着FIND_F和FIND_D的PHRED评分增加,衍生等位基因频率差异(DDAF)和群体分化指数(FST)呈现显著衰减趋势,而FIND_I评分则与这些选择指标正相关。在人类快速进化区域(HAQERs)和人类加速区域(HARs)的分析中,FIND成功捕捉到不同区域特异的选择模式,证实其能无偏倚地反映全基因组范围的近期适应印记。
模型可解释性分析通过SHAP值识别出影响各类别预测的关键特征。序列属性如每100bp突变频率(Freq100bp)和局部核苷酸多样性(LND)对FIND_I模型贡献最大,而Eigen等全基因组有害性评分对FIND_F模型影响显著。引人注目的是,新引入的三维基因组特征(3DTAD_TISSUE)在区分性状调控变异中发挥重要作用,位于拓扑关联域(TADs)内的变异更可能影响适应度。
临床变异重分类应用显示,FIND对ClinVar数据库中的变异进行了精细划分。在1,078,756个临床意义不明变异(VUS)中,78%被预测为有害类别,18%属于性状调控类别。通过分析ClinVar十年间的重分类记录,FIND_D对最初判定为致病性但后续被重新分类为良性变异的评分显著低于其他工具,表明其具有更优的假阳性控制能力。典型案例分析如FOXC1基因3'UTR区变异(chr6:1,613,076-A-T)的重新分类,展示了FIND在识别具有功能效应但非明确致病的性状调控变异方面的价值。
研究讨论部分指出,FIND模型的主要优势在于其多维分类框架、大规模特征整合以及注意力机制带来的可解释性。与传统二元分类方法相比,FIND能更精细地捕捉变异对适应度的连续影响谱系,特别是在识别性状调控变异方面表现突出。同时,研究也承认了若干局限性:训练数据主要基于欧洲祖先群体可能引入偏差;类别间存在一定重叠;以及部分特征可能带来的潜在循环性問題。
该研究的结论强调,FIND通过整合适应度谱系和衍生等位基因频率,提供了区分性状调控等位基因与有害/中性变异的新工具。其卓越性能和在临床变异重分类中的成功应用,为连接进化生物学见解与生物医学研究搭建了重要桥梁。未来通过纳入多祖先训练数据和更精细的选择特征,有望进一步提升模型的泛化能力和分类分辨率。
研究的重大意义在于首次系统地将人类近期适应进化视角纳入全基因组变异功能预测框架,突破了传统二元分类的局限,为理解遗传变异对人类健康与疾病的复杂贡献提供了新范式。随着功能基因组学数据的不断积累和计算方法的持续创新,FIND模型有望在精准医学和进化医学交叉领域发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号