编辑推荐:
微表情(ME)识别在揭示非言语情感方面意义重大,但缺乏反映真实场景的数据库阻碍其发展。研究人员提出端到端系统,用 3D 面部重建和双峰值帧检测策略,结合 SSD CNN 架构。该系统在 MEVIEW 数据集上表现出色,有望推动 ME 识别的实际应用。
在当今数字化时代,人们的情感表达愈发复杂多样,而微表情,这种通过微妙、不由自主的面部肌肉运动所展现的非言语情感信号,正逐渐成为研究热点。想象一下,在一场紧张的商务谈判中,对手脸上瞬间闪过的一丝不易察觉的皱眉,可能就隐藏着他们内心的犹豫或不满;在机场的安检通道,旅客不经意间的眼神变化,或许能透露出一些不为人知的秘密。微表情识别技术的出现,仿佛为我们打开了一扇洞察他人内心世界的窗户,让这些隐藏在细微之处的情感无所遁形。
然而,微表情识别技术的发展并非一帆风顺。目前,该领域面临着诸多挑战。一方面,由于微表情具有微妙、强度低、发生迅速(通常在 0.5 秒内)的特点,人类对微表情的识别准确率仅略高于随机水平,这使得微表情识别成为一项极具挑战性的任务。另一方面,现有的微表情数据库大多是在实验室环境下收集的,难以反映真实世界中人们在各种复杂情况下的微表情变化。在真实场景中,人们可能会在不同的光照条件、视角以及存在遮挡的情况下展现微表情,例如在光线昏暗的环境中,或者面部被部分遮挡时,现有的微表情识别系统往往难以准确识别。这种数据库与现实场景的脱节,严重阻碍了微表情识别系统的发展和商业化进程。
为了解决这些问题,来自未知研究机构的研究人员开展了一项旨在构建更强大的微表情识别系统的研究。他们提出了一种稳健的端到端系统,该系统专门设计用于在无约束的环境中有效运行,研究成果发表在《Expert Systems with Applications》上。这项研究意义重大,它为微表情识别技术在真实世界的广泛应用提供了可能,有望在安全筛查、心理评估等多个领域发挥重要作用。
研究人员在开展这项研究时,运用了以下几个主要关键技术方法:首先是 3D 面部重建技术,在预处理阶段,将 2D 面部图像转化为 3D 网格形式,以此来校正不同视角、障碍物和光照条件导致的面部扭曲;其次是双峰值帧检测策略,区别于以往仅检测单个峰值帧的方法,该策略提取两个具有表现力的光流帧,减少单一帧噪声的影响;最后是设计了浅小双输入(SSD)CNN 架构,用于联合处理两个光流帧,提升情感分类效果 。
3D 面部重建
研究人员将 3D 面部重建技术作为核心预处理手段。在实际操作中,他们把每一个 2D 面部图像转化为 3D 网格形式,这样能够有效解决不同视角、障碍物和光照条件引起的面部扭曲问题。之后,通过面部对齐算法进一步优化,最小化网格之间的距离,为后续的分析提供更精准的基础数据。
双峰值帧检测
以往研究常依赖单个顶点帧进行微表情分析,但这种方法容易受到噪声、遮挡或光照变化的影响。此次研究引入了全新的双峰值帧检测策略。通过该策略,研究人员从视频中提取两个具有代表性的光流帧,丰富了用于后续情感识别阶段的特征,降低了单个帧噪声干扰对识别结果的影响。
基于 SSD CNN 架构的情感识别
为了更好地处理双峰值帧检测得到的两个帧信息,研究人员设计了浅小双输入(SSD)CNN 架构。该架构包含两个浅层输入流,每个输入流都有多个卷积层、GELU 激活层和批归一化层。最后,将从每个通道提取的特征进行连接,并与全连接层相连。SSD 网络的一大优势在于其可学习参数显著减少(约 1500 个),能够实现实时处理,满足真实世界数据处理的需求。
在实验结果方面,研究人员对系统进行了全面评估。在具有挑战性的 MEVIEW 数据集上,该系统取得了令人瞩目的成绩,准确率达到 75%,F1 分数为 77.68%。这一结果表明,研究人员提出的系统在真实世界微表情识别任务中表现出色,相较于以往的方法有了显著提升。
研究结论和讨论部分指出,该研究提出的端到端微表情识别系统有效解决了当前微表情识别领域面临的一些关键问题。双峰值帧检测策略降低了噪声和瞬态波动对表情分析的影响,SSD 网络架构增强了特征学习能力,进而提升了情感识别性能。同时,研究人员也对该框架的优势和局限性进行了深入探讨。虽然该系统在处理复杂环境下的微表情识别任务时表现良好,但在某些极端情况下,如严重遮挡或光照剧烈变化时,仍可能存在识别不准确的问题。未来的研究可以在此基础上进一步优化,探索更多创新方法,以提高微表情识别系统在各种复杂场景下的性能,推动微表情识别技术在更多领域的应用,如在医疗领域辅助医生进行心理疾病诊断,在教育领域帮助教师更好地理解学生的情绪状态等,为社会发展和人们的生活带来更多便利和价值。