基于最大流与吉布斯采样的类别平衡负训练集提升增强子-启动子相互作用预测模型性能

【字体: 时间:2025年06月03日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对增强子-启动子相互作用(EPI)预测中负样本集存在类别不平衡的关键问题,日本九州大学设计学院Osamu Maruyama团队开发了CBMF(最大流优化)和CBGS(吉布斯采样)两种创新方法构建类别平衡的负训练集。通过TargetFinder和TransEPI模型在5-6种细胞系中的验证,新方法显著提升了AUPR(0.99)、召回率等指标,为基因调控机制研究提供了更可靠的EPI预测工具。

  

在基因表达的精密调控网络中,增强子(enhancer)与启动子(promoter)的远程相互作用(EPI)扮演着核心角色。这些跨越数万碱基的"分子对话"通过染色质环(chromatin loop)实现空间接近,决定着细胞命运和功能。然而人类基因组中增强子数量(数十万)远超蛋白编码基因(2-2.5万),使得EPI预测成为后基因组时代的重大挑战。现有机器学习模型如TargetFinder和TransEPI依赖实验验证的阳性样本和人工生成的阴性样本进行训练,但阴性样本构建存在根本缺陷——随机选取的阴性样本导致增强子和启动子在正负样本集中出现频率严重失衡,例如某个启动子在GM12878细胞系中阳性样本出现3次却在阴性样本出现43次,这种"类别失衡"使模型难以学习真实的调控规律。

日本九州大学设计学院的Osamu Maruyama团队在《BMC Bioinformatics》发表的研究中,创新性地提出两种构建类别平衡负样本集的方法:基于最大流优化的CBMF和基于吉布斯采样的CBGS。通过分析BENGI基准数据集发现,传统方法生成的阴性样本中56.9%-96.9%的增强子/启动子完全不存在于阳性集,导致特征空间分布偏差。新方法强制要求正负样本集的增强子/启动子出现频率匹配,在保持基因组距离约束(≤2.5 Mb)前提下,使模型能更准确捕捉真实的调控特征。研究采用染色体分层交叉验证,使用TargetFinder(基于梯度提升决策树)和TransEPI(基于Transformer-CNN混合架构)在GM12878等6种细胞系中进行评估。

关键技术包括:1)从BENGI数据集获取阳性EPI对和初始阴性集;2)最大流算法构建图网络(节点=增强子/启动子,边容量=出现频率),通过Ford-Fulkerson算法求解最优匹配;3)吉布斯采样通过玻尔兹曼分布优化频率差异,参数T=5,β=1,迭代15万次;4)采用5-fold染色体分层验证(如{1,10,15,21}等染色体组合);5)评估指标涵盖AUPR、AUC、MCC等8项指标。

【CBMF-和CBGS生成的负集改善类别平衡】通过构建"增强子-启动子频率矩阵"可视化分析发现,传统方法(BENGI)的样本分布严重偏离对角线(y=x),而CBGS样本集中93.7%的数据点分布在y=0.5x至y=2x的平衡区间内。定量指标显示,GM12878细胞系中CBGS的类别失衡指数(2.1)显著优于BENGI(4.3-5.2),证明新方法有效解决了核心问题。

【预测性能显著提升】在TargetFinder测试中,CBGS负训练集使AUPR达到0.99(BENGI仅0.47-0.61),召回率1.00,特异性0.98。概率分布分析显示,使用CBGS训练的模型在[0.95,1]区间正确分类了96.2%的阳性样本,远超其他方法。值得注意的是,即使对于"阴性特有"的增强子/启动子,CBGS模型仍保持89.4%的正确率,表明其强大的泛化能力。

【Transformer模型的验证】在参数更多的TransEPI模型中,CBGS仍保持优势但差异缩小,研究者认为这与训练数据规模不足有关。在GM12878细胞系中,CBGS使AUC提升5.3%,但AUPR差异不显著,提示深度学习模型需要更大规模的平衡数据集才能充分发挥潜力。

这项研究揭示了EPI预测领域长期被忽视的"负样本陷阱"问题,通过创新算法将计算生物学与图论、统计物理方法交叉融合。最大流方法(CBMF)保证理论最优解但灵活性不足,而吉布斯采样(CBGS)通过概率搜索获得更自然的分布,后者在保持高召回率(1.00)的同时将假阳性率降低62%。该成果不仅为基因调控研究提供了更可靠的预测工具(代码已开源),其"类别平衡"思想对其它生物分子相互作用预测(如蛋白质-蛋白质相互作用)具有重要启示。未来工作将探索序列特征模型(如EPI-Mind)中的平衡样本影响,并扩大训练数据规模以充分发挥深度学习模型的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号