
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DNA甲基化基因集分析新方法:解决探针依赖性与偏倚的创新策略
【字体: 大 中 小 】 时间:2025年07月25日 来源:Bioinformatics 4.4
编辑推荐:
研究人员针对DNA甲基化数据中探针依赖性、多映射偏倚等问题,开发了gsGene和gsPG两种GSEA方法,通过基因/探针组水平信号整合及β分布拟合策略,显著提升通路富集分析的统计效能与准确性,为表观遗传机制解析提供新工具。成果发表于《Bioinformatics》。
DNA甲基化作为表观遗传调控的核心机制,其异常与癌症、神经退行性疾病等密切相关。随着高通量甲基化检测技术的普及,海量差异甲基化位点的生物学解读成为重大挑战。传统基因集富集分析(GSEA)方法因无法解决甲基化数据特有的探针依赖性(同一基因多个探针相关性)、探针数量偏倚(基因间探针覆盖不均)及多基因映射等问题,导致通路分析结果失真。
美国国家环境健康科学研究所(NIEHS)和辛辛那提大学的研究团队在《Bioinformatics》发表创新性解决方案。他们开发了gsGene和gsPG两种方法:前者通过Fisher/Stouffer等方法整合基因相关探针的p值并校正依赖性;后者将探针按基因注释分组后独立分析,采用非中心超几何分布解决多映射偏倚。两种方法均引入β分布拟合替代传统置换检验,提升计算效率104倍。
关键技术包括:1) 基于TCGA九种癌症和PEGS队列3,488例样本的甲基化数据(450K/EPIC芯片);2) 四种p值整合算法(Fisher/Stouffer/逆χ2/Tippett)与相关性校正;3) GSEABenchmarkeR评估体系量化通路排名与疾病相关性。
研究结果:


该研究通过创新性的统计模型和计算优化,解决了甲基化GSEA中长期存在的技术瓶颈。其开源工具dmGsea支持450K/EPIC/小鼠芯片,可扩展至其他组学数据,为复杂疾病的表观遗传机制研究提供了标准化分析框架。正如作者强调,该方法对弱信号研究(如环境暴露队列)尤为关键,弥补了现有工具在复杂疾病中灵敏度不足的缺陷。
生物通微信公众号
知名企业招聘