
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于惩罚Wishart混合模型的协方差矩阵聚类方法及其在神经影像数据分析中的应用
【字体: 大 中 小 】 时间:2025年06月21日 来源:Computational Statistics & Data Analysis 1.5
编辑推荐:
本研究针对高维协方差矩阵聚类中参数估计不稳定和结果解释困难的问题,提出了稀疏Wishart混合模型(Sparsemixwishart)。通过引入协方差图形套索(penalized Wishart mixture models)惩罚项,开发了专门的EM算法,在模拟和真实fMRI数据中验证了该方法能有效识别功能脑网络模式并提高聚类准确性,为神经影像数据分析提供了新工具。
在神经科学和生物医学研究中,功能磁共振成像(fMRI)数据的分析一直是个重要而富有挑战性的课题。大脑不同区域之间的功能连接模式蕴含着丰富的神经活动信息,这些信息通常以协方差矩阵的形式呈现。然而,传统的聚类方法往往只关注均值水平的差异,而忽视了协方差矩阵中蕴含的关键关系信息。更棘手的是,当变量维度p接近或超过样本量时,协方差矩阵的估计会变得极不稳定,严重影响分析结果的可靠性。
针对这一系列问题,研究人员在《Computational Statistics》上发表了一项创新性研究。他们开发了一种基于惩罚Wishart混合模型的协方差矩阵聚类方法。该方法的核心创新在于将协方差图形套索(covariance graphical lasso)惩罚引入Wishart混合模型框架,通过专门的EM算法实现参数估计,既解决了高维情况下的估计不稳定性问题,又提高了结果的可解释性。
研究采用了三项关键技术:1)构建稀疏Wishart混合模型,采用L1范数惩罚实现协方差矩阵的稀疏估计;2)开发改进的EM算法,在M步嵌入协方差图形套索优化;3)应用改进的贝叶斯信息准则(BIC)进行模型选择,平衡模型复杂度和拟合优度。研究团队还创新性地提出了基于层次聚类的初始化策略,显著提高了算法效率。
在模拟研究部分,研究人员设置了p=25维、K=3个成分的Wishart混合模型,比较了新方法与Hidot和Saint-Jean方法以及两种层次聚类方法的性能。结果显示,新方法在调整兰德指数(ARI)上表现最优,中位数达到0.85,显著优于传统方法。更重要的是,通过Kullback-Leibler散度评估发现,新方法对各成分参数的估计误差明显降低。虽然支持恢复分析表明BIC选择的λ值(平均34.5)对第三个成分的稀疏模式识别稍显不足,但整体F1分数仍保持较高水平。
在实际应用方面,研究团队分析了来自Enhanced Nathan Kline Institute-Rockland样本的fMRI数据。分析对象为22名受试者的68个脑区功能连接矩阵。采用两种惩罚矩阵P的设置:一种是常规的对角零元素全1矩阵,另一种是基于白质纤维结构连接信息的数据驱动矩阵。两种设置下BIC都选择了K=2的模型,将受试者分为12人和10人两组。值得注意的是,这两组在年龄(40岁vs26.5岁)、利手习惯和精神疾病诊断等方面都显示出显著差异。其中第一组主要为右利手且抑郁症状较多,第二组则包含更多左利手和双手灵活者。估计的协方差矩阵Σ1和Σ2呈现出明显的半球内高连接模式,且第一组的稀疏程度更高。
这项研究在方法学和应用层面都具有重要意义。在方法学上,它首次将稀疏惩罚引入Wishart混合模型框架,为解决高维协方差矩阵聚类问题提供了新思路。改进的EM算法和初始化策略保证了方法的计算可行性。在应用层面,该方法成功揭示了fMRI数据中与人口统计学和临床特征相关的功能连接模式,为神经影像分析提供了有力工具。特别是通过协方差矩阵的稀疏化,研究者能够更清晰地识别不同群体间最具区分力的脑区连接特征。
研究也指出了若干未来发展方向。首先是探索除图形套索外的其他正则化方法,如阈值法和带状约束等。其次是考虑更灵活的矩阵分布,如Riesz分布及其变体,以适应更复杂的数据结构。此外,针对支持恢复和模型选择的优化也是值得深入研究的课题。这些改进将进一步提升方法在神经科学和其他领域的应用价值。
生物通微信公众号
知名企业招聘