《Journal of Radiation Research and Applied Sciences》:On improving the finite population mean estimation using auxiliary variables: Practical explanations in traditional calligraphy art and radiation fields
编辑推荐:
本研究旨在增强概率比例规模(PPS)抽样下有限总体均值的估计精度,通过对辅助信息的有效利用实现这一目标。研究变量与辅助变量之间的简单关系通常由传统估计量进行估计,但这些估计量可能不足以表征现实世界数据的复杂性。为克服此缺陷,研究人员提出了一种改进估计量,该估计
本研究旨在增强概率比例规模(PPS)抽样下有限总体均值的估计精度,通过对辅助信息的有效利用实现这一目标。研究变量与辅助变量之间的简单关系通常由传统估计量进行估计,但这些估计量可能不足以表征现实世界数据的复杂性。为克服此缺陷,研究人员提出了一种改进估计量,该估计量更加灵活高效地整合辅助变量,从而提高估计的精确性与可靠性。该方法论的提出受到两个看似相反却同样有序的领域的启发:传统书法艺术与辐射场。书法中的精确性、平衡性与比例流动性对于构建和谐形态至关重要,这与辅助变量需要与研究变量精确匹配以提高估计精度的目标一致。该改进估计量通过调整现有比率型框架并引入更多参数构建而成,这些参数考虑了变量间的变异性与相关性。其统计特征(如偏误和均方误差(MSE))经数学推导并讨论。与常规估计量的效率比较表明,所提方法始终更优,特别是在辅助变量与研究变量高度相关时。理论结果通过数值示例和代表性数据建模得到支持。研究证实,所提估计量在各种抽样场景下具有更低的MSE和更高的效率。这在成本或可获得性受限、而辅助信息易于获取的应用领域尤为实用。最终,该研究为PPS抽样下有限总体均值估计提供了一种 enriched( enriched )方法论,兼具理论基础与实践价值。
本研究聚焦于概率比例规模(PPS)抽样下有限总体均值估计的改进问题,相关成果发表于《Journal of Radiation Research and Applied Sciences》。在调查研究中,当完全枚举因成本、时间或可及性等因素不可行时,抽样技术成为有效的替代方案。PPS抽样通过基于已知辅助变量分配选择概率,提高了样本的代表性。然而,传统估计量通常假设研究变量与辅助变量之间存在线性关系,难以充分捕捉现实数据的复杂结构,导致估计效率受限。为此,研究人员开展了本项研究,旨在构建一种能更灵活高效利用辅助信息的改进估计量。
研究人员提出了一类新型估计量,其核心形式为T?
PropPPS = u?[aX? + b
π(π)v? + (1-π)(aX? + b)]
?,其中a、b、π、?为可调参数。该估计量通过调整现有比率型框架,引入额外参数以考虑变量间的变异性和相关性。研究人员从数学上推导了该估计量的偏误和均方误差(MSE)表达式,并通过优化参数π获得最小MSE。理论结果表明,在满足特定条件时,所提估计量优于现有估计量。
研究采用了三组实际数据开展数值分析:第一组为酵母UVB辐射诱导损伤数据(来源:https://www.kaggle.com/datasets/lazardavidovic/yeast-uvb-radiation-induced-damage),以分形空隙度为研究变量,细胞核评估为辅助变量;第二组为国家太阳辐射数据库(NSRDB)数据(来源:https://www.kaggle.com/datasets/arfazrll/national-solar-radiation-database-nsrdb),以风向为研究变量,风速为辅助变量;第三组为传统书法艺术数据(来源:Xiong (2024)),以"Ours"指标为研究变量,CycleGAN为辅助变量。此外,研究还设计了大规模蒙特卡洛模拟实验,设置样本量n∈{50, 100, 200, 400},考虑弱(ρ=0.3)、中等(ρ=0.5)、强(ρ=0.7)和极强(ρ=0.9)四种相关水平,以及正态、伽马和对数正态三种分布类型,通过5000次重复实验评估估计量的均方误差(MSE)和百分比相对效率(PRE)。
数值研究结果方面,表1显示在三组实际数据中,所提估计量的MSE均为最小(Population-I: 0.0001626664;Population-II: 6.501499;Population-III: 0.0007507224),显著优于包括常规估计量、比率估计量、乘积估计量及其多种改进形式在内的13种现有估计量。表2的PRE结果表明,所提估计量相对于基准估计量的效率提升分别为153.80%、105.33%和136.41%。表3至表5的模拟结果显示,在正态、伽马和对数正态分布下,所提估计量的MSE始终最小,且随着相关性强度的增加,其优势愈发明显;表6至表8的PRE结果进一步证实,在极强相关(ρ=0.9)和大样本(n=400)条件下,PRE可达数十万量级。
讨论部分,研究人员分析了各估计量的性能差异。所提估计量 consistently 表现最优,原因在于其灵活的结构能够有效利用辅助信息,适应不同的总体结构。T?
10PPS和T?
12PPS在现有估计量中表现相对较好,而T?
5PPS等估计量在某些总体中表现不佳,表明辅助信息的使用方式对估计效率有决定性影响。所提估计量的优势在不同分布类型、相关强度和样本规模下均保持稳健,尤其在偏态总体中优势更为突出。
研究结论指出,本研究的主要目标是通过更优地利用辅助变量来改进PPS抽样下有限总体均值的估计。研究表明,与传统估计量相比,将辅助信息融入估计过程可以显著降低均方误差(MSE)。所提估计量以更灵活的方式利用研究变量与辅助变量之间的关联,使估计程序能够适应不同的总体结构。这在实际应用中尤为重要,因为线性假设可能无法有效考虑数据的复杂性。PPS抽样通过确保更具信息量的单位有更高被选概率,增强了估计框架;与结构良好的辅助变量估计量结合,可实现对总体的平衡高效表征。数值结果证实,所提估计量在特定条件下表现更优,特别是在总体规模差异显著时。该研究的另一价值在于其概念框架:通过与传统书法和辐射科学的类比,研究展示了比例性、结构化变异和知情加权的普适意义——书法中特定笔画的有意识关注创造视觉和谐,辐射科学中需在考虑强度随距离变化的同时进行精确测量。这些比较直观地说明了PPS抽样和辅助变量在实现统计估计精确性方面的必要性。最终,该研究为调查抽样领域提供了理论可靠、实践可行的有限总体均值估计方法,强调精确估计不仅是数学公式问题,更是统计程序与研究总体自然结构之间一致性的问题。这种一致性最终带来更广泛应用中更精确、可靠和有价值的产出。