-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞多组学整合基因组距离的调控变异-靶基因关联预测新框架pgBoost
《Nature Genetics》:Linking regulatory variants to target genes by integrating single-cell multiome methods and genomic distance
【字体: 大 中 小 】 时间:2025年06月13日 来源:Nature Genetics 31.8
编辑推荐:
【编辑推荐】来自国际团队的研究人员通过开发pgBoost梯度提升框架,创新性地整合单细胞多组学数据(scRNA-seq/ATAC-seq)与基因组距离特征,解决了现有调控性单核苷酸多态性(SNP)-基因关联预测方法一致性低、忽视空间效应的难题。该模型在eQTL、ABC、CRISPR和GWAS数据验证中显著提升靶基因识别准确率,为解析疾病相关变异的功能机制提供了新工具。
这项研究提出了名为pgBoost的创新性计算框架,巧妙地将单细胞多组学技术(包括转录组测序RNA-seq和染色质可及性检测ATAC-seq)与基因组距离信息相结合,用于预测调控性单核苷酸多态性(SNP)与其靶基因的关联关系。现有方法虽然能分析单细胞多组学数据,但存在预测结果不一致且忽略基因组三维空间效应的局限。
研究团队开发的pgBoost采用梯度提升算法,通过非线性整合多种现有关联预测策略(特别加入基因组距离特征),并基于表达数量性状位点(eQTL)数据进行训练,最终为每个候选SNP-基因对生成概率评分。验证结果显示,pgBoost在eQTL、染色质活性接触(ABC)、基因编辑(CRISPR)和全基因组关联研究(GWAS)数据集中的预测效能显著优于现有方法。
值得注意的是,当聚焦特定细胞类型时,仅采用该细胞类型的特征可进一步提高预测特异性。研究还列举了多个典型案例,证明pgBoost能准确将GWAS精细定位的疾病变异关联到经实验验证或具有生物学合理性的靶基因,而这些关联被其他方法所遗漏。这项成果表明,通过机器学习整合多维度数据,能显著提升从GWAS关联中发现致病基因的准确性,为解析复杂疾病的分子机制提供了强大工具。
知名企业招聘