
-
生物通官微
陪你抓住生命科技
跳动的脉搏
离散回归模型中递归非参数预测推断的高效算法及其应用
【字体: 大 中 小 】 时间:2025年09月17日 来源:Computational Statistics & Data Analysis 1.6
编辑推荐:
本文提出一种基于贝叶斯非参数框架的递归算法(RNPR),通过Dirichlet过程混合模型(DPM)的一步预测更新机制,实现了离散回归设计中条件分布函数的高效在线估计。该算法无需MCMC(Markov Chain Monte Carlo),具有计算速度快、可并行化及一致性的特点,为生物统计与计算生物学提供了新的建模工具。
Highlights
提出基于Copula的递归回归(Recursive Regression, RR)算法,扩展了Hahn等(2018)的预测密度表征方法
算法源自线性回归Dirichlet过程混合模型(DPM)的贝叶斯一阶更新,具备在线学习与低计算成本优势
通过模拟与真实数据验证了算法在有限样本下的数值准确性,并与核回归等方法进行对比
在温和假设下证明了算法的频率学派一致性(frequentist consistency)
Regression prediction using copulas
我们考虑固定回归设计,其中单变量回归因子x取值于有限空间?? = {x(1),…,x(m)},连续响应变量Y ∈ ??。目标是估计所有x ∈ ??对应的条件分布P(·|x)。通过Copula密度函数刻画相邻预测分布间的关系,实现了无需后验积分的直接预测计算。
A Recursive Predictive Regression Model
采用Dirichlet过程混合线性模型(DPM)作为贝叶斯非参数回归框架:f(y|G,x) = ∫N(y|βx,σ2)dG(β),其中G服从DP(a,G0)先验。该模型通过随机截距项与协变量依赖的混合权重,灵活捕捉回归关系的异质性。
Numerical Strategies for the Implementation
算法通过网格化计算实现(网格维度B×m),采用顺序数据输入与动态权重调整策略。关键步骤包括预测分布评估、Copula参数选择(如高斯或t-Copula)以及针对边界偏差的平滑处理,确保计算效率与数值稳定性。
Illustrations
通过高斯混合与t分布混合数据的模拟研究,对比不同Copula选择下的算法性能。所有实验代码已开源(GitHub链接),支持方法复现与扩展应用。
Asymptotic analysis
在观测数据Yn|xn ~ P*(·|xn)且xn为确定性序列的条件下,证明了算法生成的随机测度序列Pn(·|x)几乎必然弱收敛于真实条件分布。该证明推广了Cappello与Walker(2025)的递归算法理论至分布函数向量情形。
Discussion
本研究提出的递归回归算法将DPM模型的一阶贝叶斯更新机制推广至离散回归场景,在保持计算轻量化的同时提供了条件分布估计的可靠解决方案。未来工作将深入探索其与完全贝叶斯模型的理论关联及在生物医学高通量数据分析中的应用潜力。
生物通微信公众号
知名企业招聘