
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向流式数据的在线更新复合分位数回归方法及其高效估计理论
【字体: 大 中 小 】 时间:2025年09月23日 来源:Statistical Analysis and Data Mining: An ASA Data Science Journal
编辑推荐:
本文针对高流速、大体量数据流的实时分析难题,提出了一种在线更新的复合分位数回归(Composite Quantile Regression)算法。该算法仅需保留历史数据的关键信息,通过动态更新统计量实现高效计算,理论证明其估计量与全数据集的Oracle估计量渐近等价,在计算效率和内存管理方面显著优于传统方法,适用于同质与异质数据场景,为流式数据处理提供了创新解决方案。
面对高流速(high velocity)与大体积(volume)特征的数据流(streaming data),实时分析面临重大挑战。在线学习(online learning)方法因其高效处理能力逐渐成为研究焦点。本研究提出一种在线可再生算法(online renewable algorithm),用于复合分位数回归(Composite Quantile Regression, CQR),仅需保留历史数据中的关键信息,并通过当前可获取数据动态更新统计量,从而获得可再生估计量(renewable estimator)。理论证明该估计量与全数据集推导出的Oracle估计量(oracle estimator)具有渐近等价性(asymptotically equivalent),在计算效率(computational efficiency)和内存管理(memory efficiency)方面具备显著优势。与传统方法不同,本研究未对数据批次数量或方差施加约束。数值模拟(numerical simulations)和真实数据集实验表明,该估计量不仅在处理同质(homogeneous)与异质(heterogeneous)数据时优于现有方法,且在多种场景下表现超越传统分位数回归(Quantile Regression)。这些发现突显了该方法在实际流式数据应用中的适用性。
生物通微信公众号
知名企业招聘