处理PLS-SEM中的缺失数据:商业研究中的策略与见解

《Journal of Business Research》:Tackling missing data in PLS-SEM: strategies and insights for business research

【字体: 时间:2025年10月11日 来源:Journal of Business Research 9.8

编辑推荐:

  本研究探讨PLS-SEM中缺失数据处理方法,比较了删除法、EM算法、MICE等技术在MCAR、MAR、NMAR机制下的表现,提出EM-Weighting整合填补与加权策略的创新方法,并通过案例和模拟验证其在5%-30%缺失率下的有效性。

  
刘一德|Wynne W. Chin|Cheah Jun-Hwa|Joseph F. Hair|Chan Lyu
澳门科技大学商学院,澳门塔帕

摘要

本研究为处理偏最小二乘结构方程模型(PLS-SEM)中的缺失数据提供了实用指南。PLS-SEM是一种在商业研究中广泛使用的重要多变量技术。我们比较了不同缺失数据处理方法的优点和局限性,强调了选择适当方法以提高PLS-SEM分析准确性和可靠性的重要性。此外,我们介绍了一种创新方法,通过结合插补和后续加权来处理非随机缺失(NMAR)数据。通过实证案例研究和全面的模拟研究展示了各种处理策略的实际效果,为处理PLS-SEM中缺失数据的商业研究人员提供了有意义的见解和实用指南。

引言

在偏最小二乘结构方程模型(PLS-SEM)中处理缺失数据是一个关键挑战,该模型是组织行为、市场营销、人力资源管理、信息系统、国际商务、旅游和酒店管理等商业领域中广泛使用的多变量统计技术(Becker等人,2023年;Sarstedt和Liu,2024年)。PLS-SEM特别适用于处理复杂的结构关系或规范网络,使其在因果预测和复杂模型分析中不可或缺(Shmueli等人,2019年;Cheah等人,2020年;Adler等人,2023年;Liengaard,2024年;Sharma等人,2024年)。然而,在基于调查的研究中,缺失数据的存在对PLS-SEM结果的精确性和可靠性构成了重大威胁(Sarstedt等人,2023年)。
任何研究中的缺失数据都可能引入偏差、降低统计功效并扭曲模型估计,从而导致不准确或不可靠的结论(Enders,2023年)。缺失数据的性质和程度——分为完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)——在确定适当的处理策略方面起着关键作用(Fiero等人,2016年)。尽管已经使用了多种技术,如期望最大化(EM)(Wang等人,2022年)、通过链式方程的多重插补(MICE)(Grund等人,2024年)等与PLS方法结合来处理调查中的缺失数据,但仍然缺乏专门针对商业研究中的PLS-SEM用户需求的全面指导(Sarstedt等人,2023年)。
本研究通过深入比较PLS-SEM背景下的不同缺失数据处理方法来填补这一空白。此外,本研究介绍了一种创新方法,通过整合先进的插补技术和后续加权策略(特别是EM-Weighting方法)来管理NMAR数据。这种双重方法不仅根据潜在数据模式插补缺失值,还应用加权来调整NMAR机制引入的偏差。正如Becker和Ismail(2016年)以及Cheah等人(2021年)所展示的,加权PLS-SEM(WPLS-SEM)的优势使这种方法的有效性得到了证明,提高了参数估计的准确性和可靠性。这为研究人员提供了实用指南,以减轻非随机缺失对其分析的不利影响。
此外,本研究进行了全面的模拟研究,旨在考察不同缺失数据水平对PLS-SEM中常用插补方法的影响。为了评估这种方法,我们使用NIPALS方法作为基准,评估了EM、MICE和EM-Weighting在5%至50%缺失数据水平下的性能。通过系统地改变缺失值的比例和机制,模拟旨在确定特定插补技术开始产生不可靠或有偏结果或失效的阈值。最终,这些发现可以帮助商业研究人员在缺失数据严重程度增加时做出更明智的决策,选择适当的缺失数据处理技术。
通过结合实证案例研究和模拟,本研究展示了各种数据处理策略的实际意义。本研究不仅验证了所提出的NMAR管理方法的有效性,还为实证商业研究的方法论实践做出了贡献,确保即使在存在复杂缺失数据模式的情况下,分析结果也能保持稳健和可靠。

缺失数据的类型与识别

有效管理缺失数据对于保持定量分析的完整性至关重要。缺失数据可能源于无响应、响应偏差、数据录入错误或数据收集过程中的技术问题(Zhao,2020年)。错误处理缺失值可能导致估计结果有偏、统计功效降低以及模型有效性受损(Enders,2023年)。因此,准确识别缺失数据的机制至关重要——无论是

缺失数据处理方法

处理缺失数据的方法可以分为三类:删除方法、插补方法和基于模型的方法(Zhao,2020年)。每种方法都有其独特的假设、技术要求以及对分析结果质量的影响。选择最合适的方法取决于缺失数据的机制(MCAR、MAR或NMAR)、缺失数据的比例等

模拟的目的

这项模拟研究考察了不同缺失数据水平对PLS-SEM中常用插补方法的影响,并将NIPALS算法作为基准。通过系统地改变缺失值的比例和机制,我们旨在确定特定技术在缺失数据增加时产生不可靠或有偏结果的阈值,从而解决关于方法性能的担忧。

讨论

在PLS-SEM中有效管理缺失数据至关重要,因为复杂的结构模型和轻微的缺失数据都可能导致结果偏差(Becker等人,2023年;Hwang等人,2023年;Sarstedt等人,2023年)。本研究强调了需要根据缺失数据的机制(MCAR、MAR或NMAR)来调整缺失数据策略,以最小化偏差并保持模型完整性。我们的模拟(第4.4节)显示,在5%–30%的NMAR情况下,EM-Weighting表现出色,保持了较高的稳健性

结论

本研究提供了关于PLS-SEM中缺失数据处理的宝贵见解,评估了在5%、10%、25%和50%缺失数据水平下,Deletion、EM、FCS、EM-Weighting和NIPALS方法的性能。主要发现表明,在NMAR和MAR情况下,EM-Weighting和FCS的表现始终优于其他方法,保持了较高的稳健性(Mean_Correlation > 0.9635)和较低的偏差(< 0.0343)。当缺失数据超过10%时,删除方法变得不可靠

资助

本研究得到了澳门科技大学的FRG资助(FRG-22-056-MSB)。

CRediT作者贡献声明

刘一德:撰写——审阅与编辑、撰写——初稿、正式分析、数据管理、概念化。Wynne W. Chin:监督、方法论、概念化。Cheah Jun-Hwa:撰写——审阅与编辑、方法论、概念化。Joseph F. Hair:撰写——审阅与编辑。Chan Lyu:撰写——审阅与编辑、资金获取、数据管理。
刘一德刘一德专注于服务创新研究。他的研究成果发表在《商业研究杂志》、《当代酒店管理国际杂志》、《互联网研究》等学术期刊上。Clarivate Analytics将他的一项研究列为高引用和热点论文。刘一德共同主持了多个关于创新、信息系统和定量方法的国际会议。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号