基于自编码器-典型相关分析(A-CCA)的统计匹配方法及其在收入与生活条件调查数据融合中的应用研究

【字体: 时间:2025年10月12日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文创新性地将自编码器-典型相关分析(A-CCA)应用于统计匹配(Statistical Matching)领域,并与核典型相关分析(KCCA)、多输出多层感知机(MMLP)等机器学习方法及传统距离热层法(HD)、回归法(REG)进行对比。研究利用比利时收入与生活条件(SILC)及家庭预算调查(HBS)数据验证了A-CCA在降低维度、处理分类变量不兼容性及整合抽样权重方面的优势,为多源数据融合提供了高效解决方案。

  
Section snippets
Background
我们考虑两个独立的样本调查,它们被编码成两个数据集A和B,分别包含nA和nB个个体。每个数据集可以分解为三个矩阵:一个公共变量矩阵X和两个非公共变量矩阵Y和Z。我们用Jq表示每个矩阵的列数,其中q ∈ {x, y, z},每一列对应一个变量。一个重要点是,对于每个数据集,两个非公共变量矩阵中有一个是缺失的。
Proposed statistical matching technique
本节介绍两种统计匹配方法。第3.1小节介绍了一种结合自编码器与典型相关分析(CCA)的新方法。第3.2小节描述了一种基于多输出多层感知机(MMLP)的方法。最后,第3.3小节解释了这两种方法如何处理分类变量。
Experiment results
在本节中,我们不仅比较了前面讨论的三种方法(KCCA, A-CCA 和 MMLP)的性能,还将它们与更传统的统计匹配方法如距离热层法(HD)和多元线性/多项逻辑回归(REG)进行了比较。我们将使用与Annoye等人[21]相同的数据集,即2017年比利时收入与生活条件统计(SILC)数据,并限于表1(公共变量)和表2(非公共变量)中提供的变量。
Application
在本节中,我们将介绍所提出方法在整合两个真实数据集方面的应用,即2016年比利时的家庭预算调查(HBS)数据集和收入与生活条件统计(SILC)数据。此示例与Annoye等人[21]中的相同,目标是将HBS中的消费变量(分为10个宏观类别,见表18)使用12个公共变量(见表17)输入到SILC中。我们将使用Annoye等人的两步程序。
Conclusion
在本文中,我们提出了一种使用自编码器典型相关分析(A-CCA)的新统计匹配方法,并将其与另外两种统计匹配机器学习技术进行了比较:一种是使用多输出多层感知机(MMLP)的更简单方法,另一种是使用核典型相关分析(KCCA)的方法,后者是Annoye等人[21]中的最佳方法。我们将它们与更传统的方法如距离热层法(HD)以及多元和多项回归进行了比较。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号