编辑推荐:
在脑机接口(BCI)领域,解码与眼睛相关的数据面临挑战,现有方法落后于眼动追踪器。研究人员开展基于脑电图(EEG)的注视点预测和凝视位置估计研究。结果显示,新模型性能优异,接近或优于当前最优模型。这为推进基于 EEG 的眼动研究提供了重要依据。
在当今科技飞速发展的时代,脑机接口(BCI)技术成为了众多科研人员关注的焦点。它旨在实现大脑与外部设备的直接通信,帮助人们更好地理解大脑的奥秘,并为医疗、人机交互等领域带来创新变革。然而,在 BCI 技术的发展过程中,解码与眼睛相关的数据,如注视点和凝视位置,却遭遇了瓶颈。当前基于 BCI 的方法在这方面明显落后于眼动追踪器。
传统的眼动追踪器虽然能够精准地估计人类的视觉注意力,在许多交互任务中发挥着重要作用,但其大多基于视频技术,需要眼睛与摄像头保持直接的视线,这在实际应用中存在诸多限制。例如,在一些复杂的场景中,或者对于行动不便的人来说,使用这类眼动追踪器极为不便。而可穿戴式眼动追踪器虽然在一定程度上解决了使用场景的问题,但精度却不尽如人意。
对于那些患有闭锁综合征的患者而言,他们的眼部运动极其有限,传统的眼动追踪设备几乎无法使用。此时,如果能够从大脑信号中可靠地估计出与眼睛相关的数据,不仅可以避免同时设置和校准两种设备的繁琐过程,还能为这些特殊患者提供新的希望,帮助他们实现与外界的交流和互动。
在这样的背景下,来自西班牙海梅一世大学(Universitat Jaume I)和卢森堡大学(University of Luxembourg)的研究人员 Yoelvis Moreno - Alcayde、V. Javier Traver 和 Luis A. Leiva 开展了一项极具意义的研究。他们致力于探索如何利用深度学习模型,从脑电图(EEG)信号中预测注视点和凝视位置。
研究人员在此次研究中运用了多种关键技术方法。他们选用了 EEGEyeNet 数据集,该数据集包含了 356 名参与者的 EEG 和眼动追踪记录,为研究提供了丰富的数据支持。在模型构建方面,提出了两种基于深度学习的模型:Model A(2D - Ta)和 Model B(1D - Sa - Ta)。Model A 先通过二维卷积神经网络(2D CNN)进行局部时空处理,再利用长短期记忆网络(LSTM)捕捉时间关系,最后由全连接层进行全局时空预测;Model B 则先进行一维卷积神经网络(1D CNN)的局部时间处理,然后通过 Transformer 编码器捕捉通道间的全局空间关系,最后同样经过 LSTM 和全连接层完成预测。同时,将这两种模型与 EEGViT、DCNN 和 Attention - CNN 等三种现有先进模型进行对比分析。
研究结果
- 注视点预测:在使用所有 EEG 通道时,Model A 和 Model B 在估计注视点事件方面都表现出色,平均准确率达到约 99%。减少 EEG 通道数量后,性能虽略有下降,但仍保持在较高水平(约 95%)。在高裁剪率情况下,Model A 的表现优于 Model B。这可能是因为对于简单的注视点预测任务,Model B 的额外复杂性并未带来优势,尤其是在对应高裁剪率的较短信号段中。
- 凝视位置预测:在使用所有通道、最小处理信号且不裁剪的最佳条件下,Model B 的表现略优于 Model A,且二者均具有竞争力,Model B 的性能比近期的一些方法稍好。当改变裁剪率和通道集时,使用所有通道情况下,Model B 稍优于 Model A;而在减少通道集时,情况则相反,Model A 表现更优,且随着裁剪率增加,二者差距增大,这表明 Model B 对较短信号段更为敏感。
- 通道重要性可视化:通过对 Model B 中 Transformer 编码器的自注意力机制分析,发现许多被选中的通道及重要性分布与额叶电极相对应。对于 8 通道子集,较高的重要性也集中在额叶部分,且不同区域间重要性差异较弱,这可能是对稀疏电极放置的一种补偿机制。
研究结论与讨论
研究人员提出的深度学习模型在基于 EEG 的注视点预测和凝视位置估计任务中表现出色,其结果与当前最优水平相当甚至更好,且无需像近期基于视觉 Transformer(ViT)的方法那样进行预训练。研究还发现,基于 LSTM 的模型在处理 EEG 时间动态方面具有较强的竞争力,而在时间建模之前学习空间(通道)表示是有益的。然而,使用较少的 EEG 通道对注视点预测任务影响较小,但对更具挑战性的凝视位置预测任务影响较大。尽管模型性能受裁剪量影响不大,但完整的 EEG 通道集在应对裁剪时表现更好,因为更多通道的丰富信息(尽管可能存在冗余)可以弥补信号缺失带来的影响。
此外,基于 Transformer 的模型在捕捉时空关系方面比简单的基于 LSTM 的模型更有效,但在使用较少通道和较短信号时,其鲁棒性较差。这可能是由于通道减少导致每个 Transformer 的输入序列变短,以及信号缩短使得 Transformer 可学习的时间片段减少。
总的来说,这项研究为基于 EEG 的眼动研究提供了新的思路和方法,有助于推动 BCI 技术在相关领域的进一步发展。但同时也表明,准确从 EEG 信号中预测凝视位置仍然是一个有趣且具有挑战性的问题,未来可能需要探索更复杂的解决方案、不同的方法或进一步的数据预处理和清洗,以挖掘 EEG 信号中潜在的与眼睛相关的信息。该研究成果发表在《Medical & Biological Engineering & Computing》上,为该领域的后续研究奠定了重要基础。