在模型设定错误和协变量偏移的情况下的稳定子采样

《ACM Transactions on Knowledge Discovery from Data》:Stable Subsampling under Model Misspecification and Covariate Shift

【字体: 时间:2025年11月07日 来源:ACM Transactions on Knowledge Discovery from Data

编辑推荐:

  针对协变量偏移和模型误指定导致的回归预测不稳定问题,提出一种基于均匀设计和混淆变量平衡的无监督子采样算法,通过最小化全局MIMSE损失评估实现数据量缩减与预测稳定性平衡,经仿真和真实数据验证有效。

  

摘要

训练数据集和测试数据集之间存在协变量偏移,再加上模型设定错误,可能会导致在不同数据集上的回归预测结果不稳定。同时,使用大量数据训练复杂模型会带来沉重的计算负担。在本文中,我们提出了一种新的无模型子采样算法,用于实现稳定的预测,该算法采用了均匀设计方法和混杂因素平衡技术。我们的子采样算法旨在找到具有均匀设计的最近邻子采样点,以最小化全局稳定性损失,从而在减少数据量的同时保证预测的稳定性。理论分析表明,这种均匀设计方法能够最小化最大积分均方误差(MIMSE),而全局稳定性损失则用于评估每个候选的MIMSE最优子样本集中的变量之间的独立性。在合成数据集上进行的模拟研究以及在真实数据集上的应用均证明了我们提出方法的优越性,尤其是在模型设定错误和协变量偏移的情况下。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号