基于自编码器-典型相关分析（A-CCA）的统计匹配方法及其在收入与生活条件调查数据融合中的应用研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月12日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　本文创新性地将自编码器-典型相关分析（A-CCA）应用于统计匹配（Statistical Matching）领域，并与核典型相关分析（KCCA）、多输出多层感知机（MMLP）等机器学习方法及传统距离热层法（HD）、回归法（REG）进行对比。研究利用比利时收入与生活条件（SILC）及家庭预算调查（HBS）数据验证了A-CCA在降低维度、处理分类变量不兼容性及整合抽样权重方面的优势，为多源数据融合提供了高效解决方案。

Section snippets

Background

我们考虑两个独立的样本调查，它们被编码成两个数据集A和B，分别包含n_A和n_B个个体。每个数据集可以分解为三个矩阵：一个公共变量矩阵X和两个非公共变量矩阵Y和Z。我们用J_q表示每个矩阵的列数，其中q ∈ {x, y, z}，每一列对应一个变量。一个重要点是，对于每个数据集，两个非公共变量矩阵中有一个是缺失的。

Proposed statistical matching technique

本节介绍两种统计匹配方法。第3.1小节介绍了一种结合自编码器与典型相关分析（CCA）的新方法。第3.2小节描述了一种基于多输出多层感知机（MMLP）的方法。最后，第3.3小节解释了这两种方法如何处理分类变量。

Experiment results

在本节中，我们不仅比较了前面讨论的三种方法（KCCA, A-CCA 和 MMLP）的性能，还将它们与更传统的统计匹配方法如距离热层法（HD）和多元线性/多项逻辑回归（REG）进行了比较。我们将使用与Annoye等人[21]相同的数据集，即2017年比利时收入与生活条件统计（SILC）数据，并限于表1（公共变量）和表2（非公共变量）中提供的变量。

Application

在本节中，我们将介绍所提出方法在整合两个真实数据集方面的应用，即2016年比利时的家庭预算调查（HBS）数据集和收入与生活条件统计（SILC）数据。此示例与Annoye等人[21]中的相同，目标是将HBS中的消费变量（分为10个宏观类别，见表18）使用12个公共变量（见表17）输入到SILC中。我们将使用Annoye等人的两步程序。

Conclusion

在本文中，我们提出了一种使用自编码器典型相关分析（A-CCA）的新统计匹配方法，并将其与另外两种统计匹配机器学习技术进行了比较：一种是使用多输出多层感知机（MMLP）的更简单方法，另一种是使用核典型相关分析（KCCA）的方法，后者是Annoye等人[21]中的最佳方法。我们将它们与更传统的方法如距离热层法（HD）以及多元和多项回归进行了比较。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号