基于密度排序预测集的多目标回归不确定性量化方法研究

【字体: 时间:2025年10月12日 来源:Pattern Recognition 7.6

编辑推荐:

  为解决多目标回归中高维输出空间预测集构建的挑战,研究人员提出一种基于条件标准化流(CNF)的密度排序预测集(DSPS)方法。该方法通过将条件分布转换为标准正态分布,利用密度排序策略构建紧凑且覆盖准确的预测区域。实验表明,DSPS在合成和真实数据集上均能实现目标覆盖水平,同时显著减小预测区域大小,为多目标不确定性量化提供了有效解决方案。

  
在多目标回归任务中,准确量化预测不确定性对许多科学和工程应用至关重要。传统方法如分位数回归(QR)在处理高维输出时面临巨大挑战,因为需要构建高维空间中的预测区域,这些区域往往过于保守或计算成本高昂。现有方法如非参数方向分位数回归(NPDQR)和球面变换方向分位数回归(ST-DQR)虽然部分解决了这些问题,但仍存在预测区域过大或条件覆盖偏差较高等局限性。
为了应对这些挑战,研究人员在《Pattern Recognition》上发表了一项研究,提出了一种名为密度排序预测集(Density-Sorted Prediction Set, DSPS)的新方法。该方法利用条件标准化流(Conditional Normalizing Flow, CNF)将复杂的条件分布转换为简单的标准正态分布,从而高效地估计条件密度,并基于密度排序策略构建紧凑的预测区域。
研究采用的关键技术方法包括:条件标准化流(CNF)用于建模条件分布并实现可逆变换;密度排序策略基于样本条件密度值进行排序和选择;保形校准通过独立校准集调整参数以确保覆盖保证;重要性采样用于高维空间中的区域大小估计。实验数据来源于多个公开数据集,包括合成数据集(如linear-2d, linear-3d, linear-4d, nonlinear-2d, nonlinear-3d, nonlinear-4d)和真实数据集(如Blog Feedback, Physicochemical Properties of Protein Tertiary Structure, House Sales in King County, U.S. Consumer Expenditure Survey subset, River Flow, Supply Chain Management等)。
DSPS方法框架
DSPS方法包含两个核心步骤:首先使用CNF学习条件分布并转换到潜在空间;然后在潜在空间中基于密度排序选择样本,并通过保形校准确定最终预测区域。该方法通过优化参数β和γ,平衡覆盖率和区域大小,确保预测区域既紧凑又满足覆盖要求。
理论覆盖保证
研究证明了DSPS方法的覆盖保证:在交换性假设下,预测区域可实现1-α的边际覆盖水平,且条件覆盖偏差较小。理论分析表明,该方法在有限样本下仍能保持有效的覆盖性质。
合成数据实验
在合成数据集上,DSPS在覆盖水平0.9和0.95下均能实现目标覆盖率,且预测区域大小显著小于对比方法(Na?ve QR, NPDQR, ST-DQR)。例如,在linear-2d数据集上,DSPS的区域大小仅为0.73±0.015,而其他方法均在3.5以上;条件覆盖偏差也保持在较低水平(1.8±0.28%)。
真实数据实验
在真实数据集上,DSPS同样表现出色。在Blog Feedback数据集中,DSPS在覆盖水平0.9下实现了89.82±0.49%的覆盖率,区域大小为1.28±0.11,条件偏差为1.8±0.40%,均优于对比方法。在更高维的输出空间中(如4维、8维、16维),DSPS仍能保持较小的区域大小和条件偏差。
讨论与结论
DSPS方法通过结合条件标准化流和密度排序策略,有效解决了多目标回归中的不确定性量化问题。其优势在于:一是利用CNF准确建模条件分布,避免了对分位数回归的依赖;二是通过密度排序构建紧凑预测区域,提高了信息效率;三是保形校准确保了严格的覆盖保证。
该研究为高维输出空间的预测不确定性量化提供了新颖且实用的解决方案,在医疗诊断、经济预测、环境监测等领域具有广泛应用前景。未来工作可进一步探索更复杂的条件分布建模和更高效的区域构建策略,以应对更高维和更复杂的应用场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号