基于视觉Transformer与多模态数据融合的日语文本阅读困惑状态检测研究

《Displays》:Multimodal confusion state detection in Japanese text reading using Vision Transformers, facial video, and eye tracking

【字体: 时间:2025年10月28日 来源:Displays 3.4

编辑推荐:

  本研究针对在线学习环境中学生阅读困惑状态检测的难题,创新性地提出了一种基于视觉Transformer(ViT)的多模态数据融合方法。通过将眼动追踪数据以图像覆盖方式与面部视频数据整合,利用VideoSwinTransformer模型实现了日语文本阅读过程中困惑状态的精准识别。实验结果表明,该早期融合策略相比传统后期融合模型显著提升了检测准确率(达86.3%),为在线教育领域的个性化学习支持提供了有效的技术解决方案。

  
随着COVID-19疫情推动在线教育的普及,虚拟学习环境中的学习支持系统面临重大挑战。特别是在文本阅读过程中,学生可能因理解困难而陷入困惑状态,但物理距离的阻隔使得教师难以及时发现并提供帮助。日语文本由于其独特的语言特征——缺乏词间空格、使用具有高正交复杂性和多义性的汉字字符,使得困惑状态检测尤为困难。传统的单模态分析方法在准确率方面存在明显局限,亟需开发更有效的多模态融合技术。
在这项发表于《Displays》的研究中,日本秋田大学信息数据科学学院的Yudai Ito、Chikako Ishizawa和Yoichi Kageyama团队开展了一项创新性研究,旨在通过整合视觉Transformer(ViT)、面部视频和眼动追踪技术,实现日语文本阅读过程中困惑状态的精准检测。
研究人员采用了几项关键技术方法:首先,他们使用Tobii Eye Tracker 4C眼动仪和Logitech C920网络摄像头同步采集12名日语母语者在阅读10篇日语文本时的眼动数据和面部视频;其次,创新性地将15维眼动特征转换为30×30像素的图像表示,并通过覆盖方式与面部视频帧进行早期数据融合;最后,利用预训练的VideoSwinTransformer模型对融合后的多模态数据进行端到端的分类分析。
数据采集与预处理
研究团队从日本汉字能力检定测试中选取了包含陌生汉字字符的文本材料,通过键盘按键记录标注困惑状态。面部视频经过中心裁剪和降采样处理(从30fps降至10fps),眼动数据则提取了包括移动距离、移动方向和注视时长在内的15项特征。最终构建了包含8,652个样本的平衡数据集。
提出的多模态困惑状态检测方法
该方法包含三个核心步骤:通过图像覆盖技术将眼动特征嵌入面部视频帧;对覆盖区域进行尺寸调整和优化;使用VideoSwin模型进行分类。这种早期融合策略的优势在于能够充分利用预训练模型权重,在保持模型结构简单的同时实现模态间的有效交互。
实验结果
与五种对比方法(全连接融合、随机森林、LSTM、自注意力机制和单模态基准)相比,提出的方法达到了最高的检测准确率(0.863)。特别值得注意的是,即使在仅使用10%训练数据的情况下,该方法仍能保持0.847的准确率,显著优于其他方法使用全量数据的表现。跨被试验证结果进一步证实了该方法对未知读者的良好泛化能力。
模型可视化分析
通过Grad-CAM++可视化技术发现,模型在判断困惑状态时主要关注三个区域:眼动特征覆盖区域、面部感官器官(特别是眼球 fixation)以及面部轮廓区域。这表明模型能够有效捕捉阅读困惑时特有的 gaze shifts 和面部运动停滞等生物特征。
讨论与意义
该研究成功解决了困惑状态检测、多模态数据融合标准化、日语文本眼动分析等关键问题。提出的基于ViT的图像覆盖方法为多模态学习提供了一种简单而有效的解决方案,特别适用于数据稀缺场景。这种方法不仅能够直接利用预训练模型,还能通过二维图像表示灵活扩展其他模态数据。
这项研究的创新性体现在三个方面:首次提出了针对阅读困难状态的机器学习检测方法;开发了将时序眼动数据转换为ViT友好格式的转换机制;实现了无需修改架构即可直接使用预训练ViT模型的多模态融合方案。这些贡献为在线教育领域的实时学习状态监测提供了重要的技术支撑,也为跨文化背景下的阅读行为研究开辟了新途径。
未来研究方向包括在真实课堂环境中验证方法有效性、开发针对新用户的快速校准技术、探索基于普通摄像头的低成本眼动估计方案,以及将该框架扩展到更多模态数据的集成分析。随着在线教育的持续发展,这种基于多模态生物特征的学习状态分析技术有望成为个性化学习支持系统的核心组成部分。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号