
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于贝叶斯主动学习的基因调控网络高效结构解析新策略
【字体: 大 中 小 】 时间:2025年06月04日 来源:BMC Bioinformatics 2.9
编辑推荐:
基因调控网络(GRN)建模面临观测数据局限性和干预实验高成本的双重挑战。匈牙利布达佩斯技术与经济大学团队创新性地将贝叶斯因果发现与主动学习相结合,开发了ECES(等价类熵采样)和EBALD(等价类贝叶斯主动学习)两种新型采集函数,在DREAM4和Sachs数据集测试中显著提升网络结构学习效率。该研究为GRN的精准解析提供了可扩展的计算框架,发表于《BMC Bioinformatics》,对疾病机制研究和靶向干预设计具有重要价值。
基因调控网络(GRN)如同生命体的电路图,记录着基因间复杂的调控关系。然而要绘制这张图谱面临两大难题:一方面,观测数据只能识别马尔可夫等价类,无法确定精确的因果方向;另一方面,干预实验(如基因敲除)虽能破解方向模糊性,但成本高昂难以大规模开展。传统贝叶斯网络学习方法在应对高维基因数据时,还面临计算复杂度和样本需求爆炸的困境。
布达佩斯技术与经济大学人工智能与系统工程系的Daniel Sandor和Péter Antal团队提出创新解决方案。他们开发了融合贝叶斯因果发现与主动学习的混合框架,通过智能选择最具信息量的干预实验,显著提升GRN结构学习效率。研究成果发表在《BMC Bioinformatics》期刊,为精准医学时代的基因网络解析提供了新范式。
研究采用两大核心技术:1)基于SG-MCMC(随机梯度马尔可夫链蒙特卡洛)的BayesDAG和基于能量函数的DAG-GFlowNet(生成流网络)两种可扩展结构学习算法;2)新开发的ECES(等价类熵采样)和EBALD(等价类贝叶斯主动学习分歧)采集函数,专门针对GRN的马尔可夫等价类特性优化。实验数据来自DREAM4挑战赛的GeneNetWeaver模拟数据集(含64节点207边)和Sachs蛋白质信号网络真实数据。
【Scalable Bayesian structure learning for GRN】
研究比较了BayesDAG和GFN的性能差异:BayesDAG通过梯度优化规避组合爆炸问题,而GFN通过序列化生成保证DAG有效性。在初始观测数据训练中,两者表现相当(GNW数据集SHD约320),但均未达到BCD-Nets等先进算法的水平,证实了主动学习的必要性。
【Results with active learning in DAG space】
引入干预实验后,GFN展现出显著优势。BALD采集函数在平衡预测不确定性方面表现最佳:在GNW数据集上将SHD从初始320.97降至212.69,同时保持合理边数(NNZ=42.73),优于过度剪枝的熵采样(NNZ=8.66)和随机选择(NNZ=396.58)。
【Results with active learning in PDAG space】
针对等价类学习的改进中,EBALD使PDAG SHD降至191.83,证明其能有效识别关键干预靶点。在秀丽隐杆线虫衰老图谱的应用中,算法成功推荐出crh-1和skn-1等已知衰老相关基因,验证了生物学相关性。
【Discussion】
该研究的突破性在于:首次将BALD原理适配于GRN结构学习,通过量化模型间分歧(disagreement)指导干预;创新性地处理等价类空间的不确定性,使PDAG识别准确率提升41%。局限性在于BayesDAG对新增数据敏感性不足,且在大规模网络中表现待验证。
这项研究为系统生物学研究提供了方法论创新:1)实验设计方面,证明主动学习可将必要干预减少30-50%;2)算法层面,开创了基于流生成的贝叶斯网络学习新路径;3)临床应用上,在线虫衰老网络的验证为老年疾病靶点发现提供了新工具。未来工作可探索与单细胞多组学数据的结合,以及强化学习在实验设计中的深度应用。
生物通微信公众号
知名企业招聘