高维离散响应数据的迁移学习:基于重要性加权的个体级选择方法

《Computational Statistics & Data Analysis》:Transfer Learning For High Dimensional Data With Discrete Responses

【字体: 时间:2025年10月18日 来源:Computational Statistics & Data Analysis 1.6

编辑推荐:

  本文针对高维离散响应数据(如分类问题)中样本稀缺的挑战,提出了一种基于重要性加权的迁移学习方法(IWTL-DR)。该方法在广义线性模型(GLM)框架下,通过构建条件概率比作为权重,实现了对源数据的个体级筛选,有效避免了负迁移(negative transfer)并提升了样本利用效率。理论分析和数值模拟均表明,IWTL-DR在估计精度和预测性能上优于现有的源级选择方法(如Trans-GLM, aTransHDGLM)。

  
Section snippets
迁移学习用于有界离散响应
在第2.1节中,我们提出了一种在广义线性模型(GLM)框架下构建权重的通用方法,该方法适用于有界和无界离散响应。随后,我们在第2.2节中讨论了有界响应的迁移学习问题,并在第2.3节中与其他方法的样本使用效率进行了比较。
IWTL-DR的渐近性质
在本节中,我们研究IWTL-DR估计量的性质。为清晰起见,我们首先研究理想情况(oracle case),即权重 ωi(k) 和选定的子集 Sk 已知;相应的估计量记为 β?ora(0)。随后,我们建立了使用估计权重和子集的IWTL-DR估计量的性质。
为简便起见,我们预先介绍一些符号。对于 k ∈ [K],令 nSk = |Sk| 表示 Sk 的基数,并定义 nS = ∑k=1K nSk 为来自源域的有效样本大小。
扩展到无界离散响应
在前面的章节中,我们讨论了针对有界响应的高维数据的IWTL-DR估计量。在本节中,我们将这一思路扩展到离散响应可能无界的情况。一个显著的例子是泊松回归模型(Poisson regression model),它用于建模非负整数响应 y(k),其逆链接函数为 ψ′(u) = exp(u)。根据(3)式,当 y(k) 无界时,Sk 中观测值的权重可能会退化(degenerated)。因此,对于无界响应的情况,需要修改样本选择程序以确保权重有界。具体来说,我们根据响应值和协变量的联合分布来构造选择子集,从而控制权重的范围。理论性质表明,经过适当修改后的IWTL-DR估计量在无界响应情况下仍然保持一致性(consistency)和 oracle 性质。
模拟研究
在本节中,我们展示数值结果以证明我们的方法IWTL-DR相较于其他方法的优势。这些方法包括aTransHDGLM、Trans-GLM以及仅使用目标数据并带有LASSO惩罚的惩罚似然方法(简称为LASSO)。我们分别在5.1节和5.2节探讨了各种方法在逻辑回归(logistic regression)和泊松回归模型下的性能。第5.3节展示了IWTL-DR的鲁棒性(robustness)。此外,关于计算效率的补充模拟结果在附录中提供。
真实数据分析
在本节中,我们将所提出的方法应用于一个公寓租赁数据集,该数据集包含北京13个区的租赁信息,可在 http://www.idatascience.cn/dataset获取。大多数区可用的出租公寓数量通常在200到350套之间,详细信息在补充材料中提供。在该数据集中,研究的响应变量是公寓的合意性(desirability),如果其租金超过该区的平均租金则记录为1,否则为0。预测变量包括房间数量、建筑物总楼层数等。我们以一个区作为目标域,其余区作为源域进行分析。结果表明,IWTL-DR方法在预测准确率和系数估计的均方误差方面均优于对比方法,有效地利用了源域中有价值的信息。
讨论
在本文中,我们研究了针对高维离散响应数据的迁移学习。在GLM框架下,我们应用重要性加权技术来整合源域数据以估计目标回归系数。与那些“全选或全不选”(all-in-or-all-out)的方法不同,我们的方法在个体层面选择数据,从而更有效地利用源信息。我们详细建立了该方法的理论性质并与现有方法进行了比较。数值实验和实际数据分析都验证了我们方法的优越性。未来的研究方向包括将该方法扩展到更复杂的模型,如含有交互项或非线性效应的模型,以及开发更高效的计算算法来处理超大规模数据集。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号