
-
生物通官微
陪你抓住生命科技
跳动的脉搏
影像转录组学中背景基因遗漏的批判性评估及其对功能富集分析的误导性影响
【字体: 大 中 小 】 时间:2025年07月21日 来源:Biomacromolecules 5.5
编辑推荐:
推荐:本研究针对影像转录组学(imaging transcriptomics)中过度富集分析(ORA)的背景基因选择问题,通过系统综述152项研究(2015-2024)发现84.9%研究未报告背景基因,仿真实验证实使用默认背景(如全蛋白编码基因)会使突触信号通路显著性虚高达50倍,提出采用Allen人脑图谱(AHBA)基因为背景可保持显著性概率接近理论值0.05,为规范功能注释提供方法学依据。
在探索大脑结构与功能的分子机制时,影像转录组学(imaging transcriptomics)通过整合空间基因表达数据与影像衍生表型(IDPs)开辟了新途径。然而这个新兴领域存在一个被长期忽视的方法学漏洞——过度富集分析(Over-Representation Analysis, ORA)中背景基因的选择问题。目前大多数研究直接采用在线工具默认设置(如全蛋白编码基因作为背景),却未考虑这些背景与实验实际检测的AHBA基因集间的严重不匹配,可能导致通路富集结果出现系统性偏差。
中国科学院生物物理研究所的研究团队通过系统分析152项影像转录组学研究(2015-2024年),发现惊人的84.9%研究未报告所用背景基因,仅5.26%正确使用AHBA基因作为背景。为量化这种疏漏的影响,研究人员设计了两阶段实验:首先通过超几何分布仿真证明背景基因规模(n)与p值呈负相关,当IDPs相关基因数(k)为1000且通路命中率(x%)达4%时,扩大背景规模可使p值降低3个数量级;随后采用真实AHBA数据模拟显示,使用蛋白编码基因(20,607个)作背景时,"突触可塑性调控"(GO:0048167)等神经相关通路的显著性概率(psig)最高达0.97,而使用匹配的AHBA基因(6,514个)时psig仅0.056,存在高达50.22倍的虚高现象。该成果发表于《Biomacromolecules》,为规范功能富集分析提供了关键方法学依据。
关键技术方法包括:1) 系统文献综述筛选152项影像转录组学研究;2) 基于超几何测试的数学建模,固定通路规模(m=100)模拟不同背景规模(n=2,000-20,000)对p值影响;3) 采用ENIGMA工具箱预处理的AHBA基因数据(含4种差异稳定性阈值rstability=0-0.6);4) 10,000次蒙特卡洛模拟计算GO通路显著性概率(psig);5) 敏感性分析涵盖GO分子功能、BrainSpan数据集等不同条件。
研究结果部分:
"文献综述"显示2015-2024年间影像转录组学应用ORA的研究呈指数增长,但Metascape等主流工具中62.5%默认使用蛋白编码基因为背景,且多数工具未提供背景自定义功能。
"超几何测试仿真"揭示背景规模(n)与IDPs相关基因数(k)存在交互效应:当k=1000时,n从2,000增至20,000可使p值从10-2降至10-5,这种效应在通路命中率(x%)较高时更为显著。
"真实数据模拟"发现使用蛋白编码基因为背景时,神经相关通路普遍虚高:"去甲肾上腺素转运"(GO:0015874)的psig比值达50.22倍,且这种偏差在AHBA基因筛选更严格(rstability≥0.6时n=1,646)时进一步放大。敏感性分析证实该现象在GO分子功能、不同预处理流程中均稳定存在。
讨论部分强调,当前文献中高频出现的"突触信号"等通路富集结果,可能部分源于方法学偏差而非真实生物学信号。研究建议采用"AHBA基因作背景"的新标准,并建立包含四项必备要素的标准化报告规范:1) 预处理AHBA基因数;2) 显著IDPs相关基因数;3) ORA背景基因数;4) 工具版本及参数。团队同步开发的R包BrainEnrich为功能评分法提供替代方案,推动领域超越传统ORA局限。这项研究不仅揭示了影像转录组学分析中的关键方法学陷阱,更为建立可重复的神经基因组学研究范式奠定了基石。
生物通微信公众号
知名企业招聘