基于自编码器-典型相关分析(A-CCA)的统计匹配方法及其在收入与生活条件调查数据融合中的应用研究
【字体:
大
中
小
】
时间:2025年10月12日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文创新性地将自编码器-典型相关分析(A-CCA)应用于统计匹配(Statistical Matching)领域,并与核典型相关分析(KCCA)、多输出多层感知机(MMLP)等机器学习方法及传统距离热层法(HD)、回归法(REG)进行对比。研究利用比利时收入与生活条件(SILC)及家庭预算调查(HBS)数据验证了A-CCA在降低维度、处理分类变量不兼容性及整合抽样权重方面的优势,为多源数据融合提供了高效解决方案。
我们考虑两个独立的样本调查,它们被编码成两个数据集A和B,分别包含nA和nB个个体。每个数据集可以分解为三个矩阵:一个公共变量矩阵X和两个非公共变量矩阵Y和Z。我们用Jq表示每个矩阵的列数,其中q ∈ {x, y, z},每一列对应一个变量。一个重要点是,对于每个数据集,两个非公共变量矩阵中有一个是缺失的。
Proposed statistical matching technique
本节介绍两种统计匹配方法。第3.1小节介绍了一种结合自编码器与典型相关分析(CCA)的新方法。第3.2小节描述了一种基于多输出多层感知机(MMLP)的方法。最后,第3.3小节解释了这两种方法如何处理分类变量。
在本节中,我们不仅比较了前面讨论的三种方法(KCCA, A-CCA 和 MMLP)的性能,还将它们与更传统的统计匹配方法如距离热层法(HD)和多元线性/多项逻辑回归(REG)进行了比较。我们将使用与Annoye等人[21]相同的数据集,即2017年比利时收入与生活条件统计(SILC)数据,并限于表1(公共变量)和表2(非公共变量)中提供的变量。
在本节中,我们将介绍所提出方法在整合两个真实数据集方面的应用,即2016年比利时的家庭预算调查(HBS)数据集和收入与生活条件统计(SILC)数据。此示例与Annoye等人[21]中的相同,目标是将HBS中的消费变量(分为10个宏观类别,见表18)使用12个公共变量(见表17)输入到SILC中。我们将使用Annoye等人的两步程序。
在本文中,我们提出了一种使用自编码器典型相关分析(A-CCA)的新统计匹配方法,并将其与另外两种统计匹配机器学习技术进行了比较:一种是使用多输出多层感知机(MMLP)的更简单方法,另一种是使用核典型相关分析(KCCA)的方法,后者是Annoye等人[21]中的最佳方法。我们将它们与更传统的方法如距离热层法(HD)以及多元和多项回归进行了比较。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号