
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于方差收缩校正的贝叶斯信息准则在K均值聚类簇数选择中的应用研究
【字体: 大 中 小 】 时间:2025年05月07日 来源:Computational Statistics & Data Analysis 1.5
编辑推荐:
为解决K均值聚类中簇数选择难题,研究人员提出"方差收缩校正贝叶斯信息准则"(deflation-adjusted BIC),通过推导方差估计的期望下界建立闭式校正因子。相比传统BIC、轮廓系数等方法,新准则在模拟实验中展现出更优性能,并能识别单簇情况。该研究为基因组学等领域的聚类分析提供了高效可靠的新工具。
在生物医学大数据时代,聚类分析已成为探索复杂数据结构的核心工具。作为最经典的聚类方法,K均值算法自1967年问世以来被广泛应用于基因表达分析、患者分型等领域。然而这个"老将"始终面临着一个基本难题——如何确定最佳聚类簇数K?传统解决方案如肘部法则依赖主观判断,轮廓系数无法区分单簇与多簇情况,而标准贝叶斯信息准则(BIC)因忽略聚类过程对方差估计的影响导致性能下降。
针对这一瓶颈问题,研究人员在《Computational Statistics》发表创新成果。他们发现K均值聚类会导致样本方差系统性低估,这种现象被称为"方差收缩"(variance deflation)。通过数学推导获得方差收缩的期望下界,构建出闭式校正因子,进而开发出"方差收缩校正贝叶斯信息准则"。该方法在保持计算效率的同时,有效克服了现有方法的局限性。
研究采用数学推导与模拟验证相结合的技术路线。关键步骤包括:建立K均值损失函数L(C1,...,CK)的数学模型,推导方差收缩的期望下界,构建校正因子并整合到BIC框架。测试数据来自1000基因组计划(1000 Genomes Project)的2504例全基因组测序数据,模拟研究涵盖Ktrue∈{1,2,3,5,10}等多种场景。
【Loss function for K-means clustering】
研究首先形式化K均值的目标函数:对于p维空间中的n个样本,将其划分为K个互斥簇C1,...,CK,通过最小化簇内平方和实现聚类。数学表达显示,传统方差估计会因聚类过程中的样本分配优化而产生系统性偏差。
【Setting】
模拟实验设置多维度比较:样本量n∈{1000,2000},维度p∈{2,3,5,10}。结果显示新方法在所有测试场景中均优于传统BIC、间隙统计量(gap statistic)等方法,特别是在识别单簇情况时展现出独特优势。
【Real data application】
在1000基因组计划数据应用中,该方法成功区分出五大超群体(非洲、欧洲、南亚、东亚和美洲),验证了其在真实生物医学数据中的实用性。虽然该数据存在已知群体结构,但研究强调这仅作为方法演示而非性能比较。
【Concluding remarks】
这项研究通过严谨的数学推导解决了聚类分析中的关键难题。方差收缩校正BIC的创新性体现在三个方面:闭式表达式保证计算效率、能识别单簇的特殊能力、以及对非高斯分布的稳健性。研究者特别指出,虽然推导基于高斯假设,但在均匀分布等非高斯场景下仍表现良好。该成果为基因组学等领域的聚类分析提供了更可靠的工具,未来可拓展至其他基于距离的聚类算法。
值得注意的是,研究团队在方法学创新之余保持了学术严谨性,声明使用ChatGPT-4o仅用于语言润色,所有学术内容均经过人工核查。这项由JSPS KAKENHI等基金支持的工作,为生物医学大数据分析提供了重要的方法学突破。
生物通微信公众号
知名企业招聘