
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于MCMC方法的加权外熵统计推断及其在异常值影响下的数据应用
【字体: 大 中 小 】 时间:2025年08月31日 来源:Science in One Health CS3.7
编辑推荐:
本研究针对概率分布中存在异常值(outliers)时外熵(Ex)和加权外熵(WEx)的估计问题,以幂函数分布(PF)为研究对象,提出了贝叶斯和经典极大似然估计方法。研究采用马尔可夫链蒙特卡洛(MCMC)中的Gibbs采样器,在对称和非对称损失函数下获得了部分信息先验(PIP)和无信息先验(NIP)的贝叶斯估计量。结果表明,在对称损失函数下,贝叶斯估计量在大多数情况下表现最优,为可靠性工程中的不确定性量化提供了新方法。
在统计学和数据科学领域,准确衡量概率分布的不确定性一直是核心课题。传统熵(entropy)度量方法虽然广泛应用,但其对偶概念外熵(extropy, Ex)作为新兴的不确定性测度,近年来在物理、经济、计算机和可靠性工程等领域展现出独特价值。特别是在存在异常值(outliers)的复杂数据环境中,如何准确估计外熵及其加权版本(weighted extropy, WEx)成为亟待解决的统计难题。
这项发表在《Science in One Health》上的研究,由来自埃及开罗大学统计研究生院的Amal S. Hassan团队领衔,针对幂函数分布(power function distribution, PF)在异常值影响下的外熵估计问题,开展了系统性的方法论创新。研究人员特别关注了两种场景:包含k个异常值的数据集和同质(无异常值)数据集,通过经典极大似然估计(maximum likelihood estimation, MLE)和贝叶斯框架下的马尔可夫链蒙特卡洛(Markov chain Monte Carlo, MCMC)方法,为可靠性工程中的不确定性量化提供了新的解决方案。
研究采用了多项关键技术方法:首先基于Dixit模型构建了包含k个异常值的PF分布框架;其次推导了Ex和WEx的显式数学表达式;然后采用Gibbs采样器进行后验分布模拟;最后通过广泛的模拟研究和两个真实数据集(飞机空调系统故障时间和电子管寿命数据)验证了方法的有效性。
研究结果部分,"Formulating Extropy Measures within Outlier Frameworks"章节建立了包含k个异常值的PF分布模型,给出了Ex和WEx的解析表达式(式10-11)。"Classical and Bayesian Estimation of Extropy Measures"章节显示,在对称损失函数(squared error loss function, SELF)下,贝叶斯估计量表现最优,而最小期望损失函数(minimum expected loss function, MLF)表现最差。"Numerical Analysis"部分通过模拟证实,样本量增大能显著提高所有估计量的精度指标,且部分信息先验(PIP)下的贝叶斯估计量在异常值和同质情况下均保持最低的误差值。
在"Real Data Analysis"部分,研究将方法应用于两个真实数据集:包含3个异常值的30个空调系统故障时间数据,以及包含2个异常值的20个电子管寿命数据。通过KS检验、AD检验和CVM检验验证了PF分布的适用性,结果显示贝叶斯估计量相比MLE具有更小的标准误(SE),且异常值数量增加会导致估计精度下降。
这项研究的结论部分强调,所提出的Ex和WEx估计方法为存在数据污染的可靠性分析提供了更稳健的不确定性量化工具。特别是在对称损失函数下的贝叶斯估计量,展现出对异常值更强的鲁棒性。研究不仅完善了外熵度量的统计推断理论,更为实际工程中的风险管理和维护决策提供了新的分析视角。未来研究可进一步拓展至区间估计和E-Bayesian方法,以构建更完整的统计推断框架。
生物通微信公众号
知名企业招聘