
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于转录因子物理邻近性的基因调控网络推断新方法GRIP
【字体: 大 中 小 】 时间:2025年07月16日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对现有基因调控推断方法忽视转录因子(TF)物理邻近性这一关键生物学特征的问题,开发了GRIP(Gene Regulation Inference by considering TF Proximity)模型。研究人员通过整合蛋白质相互作用网络(PPI)距离度量与布尔凸优化算法,在PBMC 3k scMultiome-seq数据上验证了该方法在TF预测准确性、物理邻近性和PCHiC数据一致性方面均优于SCENIC+等主流工具,为解析细胞类型特异性调控机制提供了新范式。
基因调控网络推断是系统生物学领域的核心挑战,它决定着我们对细胞分化、状态维持和应激响应等生命过程的理解。尽管现有方法已能整合基因表达、染色质可及性和TF结合 motif 等信息,但它们都忽视了一个基本生物学事实——转录因子必须通过物理相互作用才能协同调控靶基因。这种认知缺失导致推断出的调控关系可能包含空间上无法实现的理论组合,严重影响结果的生物学可信度。
印第安纳大学医学院生物统计与健康数据科学系(Department of Biostatistics and Health Data Sciences, Indiana University School of Medicine)的研究团队在《Bioinformatics》发表的研究中,创新性地提出GRIP模型。该模型首次将TF在蛋白质相互作用网络中的邻近性作为约束条件,通过严格的数学建模证明:已知共同调控相同靶基因的TF对,其扩散状态距离(DSD)显著短于随机TF对(P<1e-10)。基于这一发现,研究人员设计出具有理论紧性保证的布尔凸优化框架,能在解释靶基因表达的同时确保推断出的TF在PPI网络中物理邻近。
关键技术包括:1) 基于scMultiome-seq PBMC 3k数据集获取配对的单细胞转录组和表观组数据;2) 使用BioGRID数据库构建人类TF的物理相互作用网络;3) 开发布尔松弛算法求解带DSD距离约束的优化问题;4) 通过启动子捕获Hi-C(PCHiC)数据验证调控关系。所有分析代码已在GitHub开源。
研究结果部分显示:
在"TF proximity in transcriptional gene regulation"部分,通过TRRUST和RegNetwork数据库验证:共同调控相同靶基因的TF对,其PPI网络最短路径距离显著短于随机TF对(图1b-d)。使用DSD距离度量时该规律依然成立(图3),为模型设计奠定理论基础。
在"The formulation of the GRIP model"部分,建立的布尔凸优化模型能同时最小化两个目标:预测误差项‖y-Xβ‖22和TF邻近项uTSu。其中距离矩阵S采用DSD度量保证对称正定性,通过定理1严格证明松弛条件的紧性。
在"GRIP achieves smaller OOS MSE"部分,与SCENIC+等工具相比,GRIP推断的TF使68-100%靶基因获得更小的样本外均方误差(图4)。特别是在CD8 T细胞中,83%靶基因的预测精度显著提升(P<0.01)。
在"TFs inferred by GRIP are closer in the PPI network"部分,补充材料显示GRIP推断的TF平均DSD距离比次优方法缩短15-30%,验证了物理邻近约束的有效性。
在"GRIP achieves better F1 score"部分,以前3个预测TF计算的F1_top3显示,GRIP在CD14单核细胞中100%优于DirectNet,在CD8 T细胞中98%靶基因获得更准确的染色质互作预测(图5)。
这项研究的重要意义在于:首次将TF空间邻近性这一关键生物学约束转化为可计算的优化问题,通过严格的数学证明和系统验证,建立了基因调控推断的新标准。模型创新的布尔凸优化框架不仅解决了生物学的核心问题,其理论成果还可推广至其他计算生物学领域。尽管存在对PPI网络覆盖度的依赖,但这项工作为理解细胞类型特异性调控机制提供了更可靠的推断工具,相关代码开源将促进该领域的进一步发展。
生物通微信公众号
知名企业招聘