基于平均Kendall秩相关的混合恒星质量黑洞优化框架:识别显著双聚类的创新方法
《Scientific Reports》:A hybrid stellar mass black-hole optimization framework for finding significant biclusters using average Kendall rank correlation
【字体:
大
中
小
】
时间:2025年10月29日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对基因表达数据中局部模式难以识别的问题,提出了一种结合平均Kendall相关系数与改进恒星质量黑洞优化(MSBO)的双聚类算法。通过整合Nelder-Mead单纯形法与Levy飞行策略,显著提升了搜索效率与精度。实验表明,该方法在酵母细胞周期和淋巴瘤数据集中能有效挖掘具有生物学意义的双聚类(p值达3.73×10-16),为基因功能模块发现提供了新工具。
在基因组学研究中,微阵列技术能够同时检测成千上万个基因在不同条件下的表达水平,生成的高维数据矩阵中隐藏着基因调控的关键信息。然而,传统聚类方法(如K-means或层次聚类)通常只能识别全局模式,难以捕捉基因在特定实验条件下协同表达的局部规律。例如,某些基因可能仅在某种疾病状态或特定细胞周期阶段表现出高度相关性,而这些局部模式对理解基因功能网络至关重要。这种局限性催生了双聚类(biclustering)技术的发展,其目标是同时从基因和条件两个维度挖掘具有一致表达模式的子矩阵。
尽管已有多种双聚类算法(如Cheng-Church算法、ISA、Bimax等)被提出,但它们大多依赖线性相关性度量(如Pearson相关系数)或离散化处理,无法有效识别非线性或单调关系(如缩放和平移模式)。此外,双聚类问题本质上是NP难问题,搜索空间随数据规模呈指数增长,传统优化方法易陷入局部最优。为此,印度韦洛尔理工学院的研究团队在《Scientific Reports》发表论文,提出一种融合平均Kendall秩相关(Average Kendall Rank, AKR)与改进恒星质量黑洞优化(Modified Stellar-Mass Black-Hole Optimization, MSBO)的混合框架,旨在高效挖掘具有生物学意义的显著双聚类。
研究采用平均Kendall相关系数作为目标函数,替代传统的均方残差(MSR)或Spearman秩相关,以捕捉基因间的非线性单调关系。优化过程引入改进的恒星质量黑洞算法(MSBO),结合Nelder-Mead单纯形法增强局部搜索能力,并利用Levy飞行随机游走机制平衡全局探索。算法通过二进制编码将黑洞位置映射为基因与条件的选择状态,使用一致性指数(Coherence Index, CI)评估双聚类质量。实验基于酵母细胞周期(2,884基因×17条件)和人类B细胞淋巴瘤(4,026基因×96样本)两个公开数据集,通过GO富集分析和p值计算验证生物学显著性。
在10个标准基准函数(如F1-F10)上对比MSBO、SBO和CSO算法,MSBO在多数函数中收敛更快、精度更高。例如,对单峰函数F1,MSBO在120代内达到全局最优(0.0),而SBO和CSO需150-170代;对多峰函数F10,MSBO的适应度值接近零,标准差显著低于对比算法(见表2-3)。结果表明,MSBO通过Levy飞行与单纯形法的协同作用,有效避免了早熟收敛。
在人工生成的200×20数据集中植入常量、平移、缩放及相干模式双聚类,MSBO能恢复70.24%的真实双聚类体积(θShared),错误率仅34.17%(θNotShared),优于Bimax(58.18%)、CC和ISA等传统方法(见表4)。其优势源于AKR对非线性模式的敏感性及MSBO的全局搜索能力。
从酵母数据中提取的典型双聚类YBC15包含34基因×10条件,AKR值达0.89,CI为0.0026,基因表达曲线呈现明显协同调控趋势(图7)。
类似地,淋巴瘤数据中最大双聚类体积为779(AKR=0.81),表明算法在不同数据类型中均能保持稳定性(表5)。
通过GO富集分析发现,MSBO提取的双聚类中80%的p值低于0.001%,显著高于SBO(72%)、Bimax(69%)等方法(图8)。
例如,双聚类YBC15显著富集于“核糖体结构组成”(分子功能)等术语,涉及基因YDR418W、RPL18B等(表6),其网络图显示9个基因与翻译过程紧密关联(图9),证实了双聚类在揭示细胞周期相关通路中的价值。
本研究提出的MSBO双聚类框架通过平均Kendall相关系数与混合优化策略的结合,解决了传统方法在识别非线性基因模式时的局限性。实验证明,该算法在合成与真实数据中均能高效挖掘具有统计显著性(p值低至10-16量级)和生物学功能一致性的双聚类,为疾病分子机制研究提供了新思路。未来工作将聚焦于算法并行化改造,以应对大规模RNA-seq数据(数万基因)的计算挑战,进一步拓展其在多组学整合分析中的应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号