
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于稀疏建模的贝叶斯基因调控网络推断方法(BiGSM)及其在复杂疾病研究中的应用价值
【字体: 大 中 小 】 时间:2025年06月10日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对基因调控网络(GRN)推断中存在的假阳性率高、噪声敏感及缺乏概率化输出等关键问题,开发了基于稀疏贝叶斯学习(SBL)的BiGSM算法。通过整合扰动矩阵P与表达数据Y,该方法不仅提供GRN矩阵A的点估计,还能输出各调控关系的后验分布。在GeneSPIDER、DREAM和GRNbenchmark等数据集测试中,BiGSM在AUPR、AUROC等指标上显著优于GENIE3、LASSO等6种主流方法,尤其在低信噪比(SNR=0.1)条件下保持最优性能。该研究为癌症等复杂疾病的机制解析提供了兼具准确性与可解释性的新工具。
基因调控网络(GRN)如同细胞内的"交通指挥系统",决定着基因间的激活与抑制关系。然而要精确绘制这张网络图面临三大难题:一是真实GRN具有高度稀疏性,常规方法易产生假阳性连接;二是基因表达数据常受实验噪声干扰;三是现有方法多仅提供确定性预测,缺乏对结果可靠性的量化评估。这些问题严重制约了GRN在癌症等复杂疾病研究中的应用价值——例如在去势抵抗性前列腺癌中,MYC通路的异常调控就与治疗耐药性密切相关。
瑞典皇家理工学院与斯德哥尔摩大学的研究团队在《Bioinformatics》发表的研究中,创新性地将稀疏贝叶斯学习(SBL)框架引入GRN推断领域,开发出BiGSM算法。该方法通过建立GRN矩阵A的零均值高斯先验分布,结合扰动实验设计的线性系统模型,实现了从噪声数据中同时获取网络连接的点估计和完整后验分布。关键技术包括:1) 基于稳态假设的线性系统建模(Y=-A-1
P+E);2) 采用类型-2最大似然学习更新超参数α和β;3) 通过迭代优化获得各调控关系的后验均值μ和协方差Σ。测试中使用了GeneSPIDER模拟数据(含单基因敲除扰动)、DREAM挑战数据集(如DREAM4 100基因网络)以及大肠杆菌SOS通路真实生物数据。
基准测试结果显示,在GeneSPIDER生成的50基因网络中,BiGSM在SNR=1和0.1时AUPR值分别达0.82和0.75,显著优于LASSO等方法。当噪声升至SNR=0.01时,所有方法性能均接近随机猜测,印证了极端噪声下的理论极限。

后验分布解析部分通过3×3微型网络的案例生动展示:真实为零的连接其概率密度函数呈尖锐峰状(αi
103
),而真实存在的调控则呈现较宽分布。这种特征使得研究者能直观判断各预测的置信度,如图5所示。
密度分析揭示BiGSM重建的GRN权重分布与真实网络最为接近,其核密度估计曲线重叠度达89%。相比之下,GENIE3等方法产生的权重分布存在明显偏移,说明BiGSM能更准确捕捉弱调控信号。

这项研究通过严格的系统验证确立了BiGSM在多方面的优势:在算法层面,首次将SBL框架与GRN稀疏特性深度结合;在应用层面,其概率化输出为癌症等疾病的机制研究提供了新维度——例如可通过后验方差识别高不确定性调控,指导后续实验验证。局限性在于计算复杂度为O(N3
),处理超大网络时需优化。未来工作可探索与单细胞转录组数据的整合,以及将TF结合位点等先验知识纳入模型,进一步提升在复杂疾病研究中的实用价值。
生物通微信公众号
知名企业招聘