基于大规模干预数据的因果网络推断揭示K562细胞基因调控新机制

《Nature Communications》:Large-scale causal discovery using interventional data sheds light on gene network structure in k562 cells

【字体: 时间:2025年11月01日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对基因网络因果推断的挑战,利用CRISPR干预数据开发了INSPRE(逆稀疏回归)方法。该方法通过稀疏矩阵逆运算构建因果网络,在K562细胞的Perturb-seq数据分析中成功识别出具有小世界和无标度特性的基因网络,发现网络中心性与基因必需性、表达遗传力显著相关,为解析复杂性状的调控架构提供了新视角。

  
在生命科学领域,解析基因间的因果调控关系一直是项重大挑战。传统观测数据因存在未测量混杂、反向因果等问题,难以揭示真实的网络结构。随着CRISPR基因编辑技术的突破,大规模扰动测序(Perturb-seq)为因果发现提供了新机遇。近期《Nature Communications》发表的研究中,Brielin C. Brown团队开发了创新算法INSPRE,成功构建了K562细胞的基因因果网络,揭示了调控网络的结构特性与生物学意义。
研究团队开发的核心技术INSPRE(逆稀疏回归)通过求解约束优化问题估计平均因果效应(ACE)矩阵的稀疏近似逆,利用交替方向乘子法(ADMM)进行优化,支持环状图结构且适应未测量混杂。方法验证采用5折交叉验证和StARS稳定性选择,网络分析包含特征向量中心性、最短路径计算等图论方法,并整合gnomAD、ExAC等公共数据库的基因约束指标。

模拟研究

通过50节点循环/非循环图的系统测试,在64种实验设置下比较7种因果发现方法。
INSPRE在存在混杂的循环图中表现最优,即使在无混杂的非循环图中也保持最高精度和最低误差,运行时间仅需数秒,而其他优化方法需长达10小时。

K562 Perturb-seq分析

应用INSPRE分析靶向788个必需基因的基因组尺度Perturb-seq数据,获得包含10,423条边(1.68%非零)的因果网络。网络呈现显著的无标度特性,出度分布显示不对称性:大多数基因不调控其他基因,但调控基因往往具有广泛作用。关键枢纽基因包括DYNLL1(出度422)、HSPA9(出度374)等,这些基因在转录调控中发挥核心作用。
网络路径分析显示47.5%的基因对存在连接,中位路径长度2.67。最短路径仅解释中位数11.14%的总效应,表明基因间影响通过多路径传播。特征向量中心性与多种基因必需性指标显著相关(gnomAD pLI padj=2.9×10-8),显示功能缺失不耐受基因更倾向于位于网络中心。

方差解释分析与验证

通过随机化检验评估网络拟合优度,估计网络解释5.84%的表达方差,显著高于随机图(1.35%)。交叉验证显示原始图与共识图间高度一致(F1=0.677)。在独立数据集验证中,必需基因屏幕网络在基因组屏幕数据中仍解释3.3%方差,442个基因在5%FDR水平显著。
构建的1428节点基因组屏幕网络同样显示小世界和无标度特性,尽管边集重叠有限(F1=0.17),但特征向量中心性高度相关(ρ=0.66),且与基因必需性的关联100%复现。
研究证实大规模因果网络推断在存在未测量混杂和循环结构时的可行性,揭示基因网络具有高度连通性,扰动效应通过多路径传播。网络中心性与基因必需性的关联为理解复杂性状的遗传架构提供新视角。方法学贡献INSPRE实现前所未有的因果发现尺度,但应注意其在高噪声下的稀疏性偏好和每特征干预要求。网络估计在高低层次属性间的不一致提示生物系统可能存在功能鲁棒性,这一现象值得进一步探索。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号