《Array》:Cognitive load classification during online shopping using deep learning on time series eye movement indices
编辑推荐:
本研究针对传统认知负荷分类方法依赖专用软件且侵入性强导致性能不稳定的问题,提出了一种基于注意力长短期记忆全卷积网络(ALSTM-FCN)的深度学习模型,直接分析原始眼动时序数据。该模型在在线购物任务中实现了97.70%的平均准确率和97.69%的F1值,并与NASA TLX主观评估结果显著相关,证明了利用低成本眼动仪进行无软件约束的认知负荷分类的潜力。
在当今数字时代,在线购物已成为印度尼西亚年轻一代中最受欢迎的线上活动之一。随着Shopee、Tokopedia等主要在线市场用户数量的迅猛增长,预计到2027年将超过2.44亿用户,这些平台巨大的经济潜力使其用户体验研究变得至关重要。网站界面的复杂性深刻影响着用户的态度、行为和感知,进而与认知负荷这一关键心理构念紧密相连。认知负荷是指工作记忆在处理任务信息时所需的心理努力,它对于任务绩效和决策制定具有重要影响。然而,传统的认知负荷测量方法多依赖于专用软件和侵入性的生理测量设备(如心电图ECG、脑电图EEG等),这些方法不仅准备过程繁琐,且因个体差异和算法差异导致性能不一致。因此,开发一种非侵入、易于配置且不依赖专用软件的分析方法成为改善电子商务用户体验的迫切需求。
为了应对这一挑战,来自印度尼西亚加查马达大学的研究团队在《Array》期刊上发表了一项创新性研究。他们巧妙地利用眼动追踪技术这一非侵入性工具,结合前沿的深度学习算法,对在线购物活动中的认知负荷进行了精准分类。眼动追踪无需在参与者身体上粘贴电极,卫生要求低,且能提供高时效性的数据,使其成为认知负荷研究的理想选择。
研究人员为开展此项研究,主要应用了以下几项关键技术:首先,他们使用Gazepoint GP3眼动仪(采样频率60 Hz)采集参与者在操作仿Tokopedia网站交互原型时的原始眼动数据(即x, y坐标)。其次,通过实验设计,设置了低认知负荷(LC)和高认知负荷(HC)各四项任务,并采用平衡顺序技术以避免学习效应。第三,采用美国国家航空航天局任务负荷指数量表(NASA TLX)对“Mental Demand”(心理需求)、“Performance”(绩效)、“Effort”(努力)和“Frustration Level”(挫折感)四个维度进行主观认知负荷评估。第四,在数据预处理阶段,对眼动时序数据进行了填充和重塑,将其规范化为300个时间步长的序列,以适应深度学习模型。第五,从原始坐标中提取了速度(speed)、方向(direction)和加速度(acceleration)等多尺度动态特征。最后,构建并比较了多种机器学习和深度学习模型,其核心是提出的注意力长短期记忆全卷积网络(Attention-based Long Short-Term Memory Fully Convolutional Network, ALSTM-FCN),并采用前向验证(walk-forward validation)方案进行模型训练与评估。
NASA TLX主观评估结果
研究人员通过NASA TLX问卷对任务中的认知负荷进行了主观测量。结果表明,在所有四个维度上,高认知负荷任务的得分均显著高于低认知负荷任务。具体而言,“Mental Demand”得分从31.01升至39.37,“Performance”从40.30升至46.12,“Effort”从44.67升至51.92,“Frustration Level”从49.70大幅升至60.53。配对样本t检验证实了这些差异的统计学显著性(p值均小于0.05)。这一结果成功验证了实验所设置任务确实能有效诱发不同水平的认知负荷,为后续基于眼动数据的客观分类提供了坚实的主观依据。
机器学习与深度学习模型性能比较
研究团队系统评估了多种模型的分类性能。提出的ALSTM-FCN模型表现最佳,平均准确率和F1分数分别达到97.70%和97.69%。其他深度学习模型如1DCNN-BiLSTM、BiLSTM和LSTM也取得了优异性能(准确率在97.02%至97.62%之间),而时序卷积网络(TCN)和LSTM-FCN模型稍逊。传统的机器学习模型,如支持向量机(SVM)和随机森林(RF),其性能(准确率分别为94.05%和88.32%)显著低于深度学习模型。方差分析(ANOVA)显示模型间性能存在显著差异(F(7,72)=49.208, p<0.001)。进一步的事后检验表明,ALSTM-FCN的性能显著优于LSTM-FCN、TCN、RF和SVM,但与1DCNN-BiLSTM、LSTM和BiLSTM无显著差异。这凸显了深度学习模型,特别是结合了注意力机制的混合架构,在处理复杂眼动时序数据方面的强大能力。
眼动特征分析与消融实验
为了深入理解哪些眼动特征对认知负荷分类贡献最大,研究人员对17项眼动特征进行了配对样本t检验。分析发现,注视点的水平位置(x)和垂直位置(y)在高、低认知负荷任务间存在显著差异。更重要的是,在不同窗口大小(w=2,4,8,16)下计算的眼动方向(direction)特征也显示出显著差异。然而,速度(speed)和加速度(acceleration)特征则未表现出显著差异。这一发现表明,在不同认知负荷下,眼动模式的变异性主要体现在空间特征(如注视位置和移动方向)上,而非时间动态特性上。随后的消融实验进一步证实了这一点:当仅使用原始坐标(x, y)和方向特征作为ALSTM-FCN的输入时,模型取得了最高的分类准确率(99.45%)和F1分数(99.45%)。这强有力地说明,空间性的眼动特征(位置和方向)是区分在线购物中认知负荷水平的关键指标。
该研究的结论明确指出,基于深度学习的原始眼动时序数据分析能够高效、准确地分类在线购物活动中的认知负荷。ALSTM-FCN模型卓越的性能证明了其处理复杂时空模式的能力。研究结果揭示了高认知负荷任务会导致用户注视位置发生显著的空间偏移和方向变化,这反映了用户在复杂任务中更努力地进行视觉探索和信息搜索。这项研究的意义在于,它成功地将主观的NASA TLX评估与客观的、基于人工智能的眼动数据分析关联起来,为认知负荷的测量提供了双重验证。更重要的是,该方法摆脱了对专用眼动分析软件的依赖,展示了使用低成本眼动传感器在不同情境下进行认知负荷分类的巨大潜力,为未来开发自适应、用户体验更佳的商业平台奠定了技术基础。当然,研究也存在一些局限性,如参与者样本主要为年轻学生,其结论推广到更广泛人群需谨慎,且深度学习模型的“黑箱”特性有待未来通过可解释人工智能(XAI)技术进一步阐释。未来的研究可整合多模态生理信号(如EEG、心率等),并扩大参与者多样性,以提升模型的普适性和鲁棒性。