编辑推荐:
为解决基于注视的生物特征认证面临的挑战,光州科学技术院的研究人员开展 Pre - AttentiveGaze 数据集相关研究,得出该数据集可用于注视身份认证的结果。此研究极具价值,推荐科研读者阅读,助力该领域深入探索。
光州科学技术院(Gwangju Institute of Science of Technology)的研究人员 Junryeol Jeon、Yeo-Gyeong Noh、JooYeong Kim 和 Jin-Hyuk Hong 在《Scientific Data》期刊上发表了题为 “Pre-AttentiveGaze: gaze-based authentication dataset with momentary visual interactions” 的论文。这篇论文在基于注视的身份验证领域意义重大,为该领域的研究和发展提供了新的数据集和研究思路,有望推动相关技术在实际场景中的应用。
研究背景
人类的眼动蕴含着丰富的信息,不仅能显示出人们有意识的注视方向,还能透露出诸如情绪唤醒、认知负荷等无意识的内部状态信息。近年来,利用机器学习(ML)方法分析眼动数据以了解用户状态的研究备受关注。其中,探索独特的眼动模式用于个体识别,即 “基于隐式注视的生物特征认证”,成为一个极具潜力的研究方向。相较于传统的密码认证方式,基于个体注视特征的认证具有独特优势,由于其难以模仿,安全性更高。
然而,这种基于隐式注视的生物特征认证在实际应用中面临诸多挑战。认证过程包含注册阶段(将用户的生物特征信息存储为模板)和识别阶段(将提供的生物特征数据与存储的模板进行匹配),为有效整合注视作为生物特征数据,需要积累足够的注视信息来描述个体,且后续分类必须足够准确以实现可靠认证。但目前,与注视认证相关的挑战尚未得到全面解决,注视交互所需的持续时间也存在较大差异,从 10 秒到 25 分钟不等,这严重阻碍了其实际应用。为实现与指纹识别等方法相媲美的性能,在保持准确性的同时,将注视持续时间缩短至几秒至关重要,因此,该研究聚焦于注视持续时间相关的挑战展开。
研究方法
- 数据集设计:研究人员设计了基于前注意加工(pre-attentive processing[注:一种在短时间注视后发现具有特定低级视觉特征元素的注视过程])的视觉刺激,以诱导用户产生独特的注视模式。视觉刺激在 1 秒内短暂呈现,旨在收集用户的非自愿反应。这些刺激具有复杂性、目标导向性、静态性的特点,并能诱导前注意加工。刺激由 16 个元素均匀分布在圆形阵列中,最多设置 4 个目标元素,用户需要从众多干扰元素中视觉检测出具有异常特征的目标元素。视觉组件(VC)包含形状、大小、色调和亮度 4 种类型,每种类型有 5 个强度级别,干扰元素设置为第 5 级,通过改变 VC 级别创建目标元素。刺激分为 SingleVC(仅一种 VC 作为目标)和 MultipleVC(包含四种 VC)两种类型,总共设计了 196 个 SingleVC 和 256 个 MultipleVC 刺激。
- 参与者:研究数据来自 34 人,其中男性 20 人,女性 14 人,平均年龄 22.7 岁,年龄范围为 17 至 33 岁。参与者通过学院社区网站的广告招募,在实验过程中允许佩戴眼镜或隐形眼镜。实验获得了光州科学技术院机构审查委员会(IRB)的批准,所有参与者均充分了解实验目的、方法、潜在风险和益处,并签署了自愿同意书,同意数据披露。
- 数据收集过程:每次试验向用户呈现设计好的刺激,包含中心调整、黑屏、呈现刺激、再次黑屏这几个步骤,每个步骤分别显示 0.8 秒、0.2 秒、0.7 秒和 0.3 秒,收集一个刺激的注视信息大约需要 2 秒。实验持续 5 天,每位参与者每天进行一次实验,每次实验包含 4 个任务,每个任务随机呈现一个刺激集,刺激集由 SingleVC 和 MultipleVC 刺激各半组成。实验共收集了 76,840 个注视样本。
- 环境设置:使用远程眼动追踪器(Tobii Pro Fusion)实时检测眼动,通过光学传感器、高分辨率相机和红外光进行工作,可追踪区域的水平和垂直视角分别约为 120° 和 90°,采样频率高达 120Hz。使用 Tobii Pro Lab 软件提取注视点(x 和 y 坐标)和瞳孔大小等信息。实验在安静的实验室中进行,统一照明条件,根据视野(13°)调整显示器和刺激的大小,在距离 27 英寸全高清(FHD)显示器 60 - 75 厘米处呈现直径 21 厘米的刺激,视野范围为 7.47° 至 9.92°。
研究结果
- 数据记录:Pre-AttentiveGaze 数据集可在 figshare 上下载,采用知识共享署名 4.0 国际(CC BY 4.0)许可协议。数据集分为原始数据集和注视特征数据集。原始数据集包含试验数据和验证数据,试验数据按会话、参与者、刺激类型和刺激索引分层目录结构组织,实际数据存储为 4 个 tsv 文件,记录了 19 项详细信息;验证数据用于评估校准过程的有效性和参与者眼动数据的可靠性,包含平均验证准确率和平均验证精度两个关键参数。注视特征数据集包含 “MultipleVC.tsv” 和 “SingleVC.tsv” 两个 tsv 文件,通过对原始数据集中刺激块的眼动数据进行处理,提取了原始注视、眼动、注视、扫视、MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数[注:一种从信号中导出的频谱特征压缩表示,常用于语音识别等应用中])、瞳孔等 6 种类型的注视特征。
- 技术验证
- 注视数据模式:通过分析参与者在呈现视觉刺激过程中的注视速度发现,刺激阶段的注视速度与其他阶段相比动态变化明显,在刺激开始后的 0.3 秒内注视速度快速波动,这表明刺激引发了前注意加工。同时,刺激阶段的注视速度标准差显著高于其他阶段,且个体参与者的注视速度比总体更均匀,这意味着刺激有效诱导了个体间不同的注视速度,有助于积累丰富的数据集以区分不同参与者。热图和扫描路径样本显示,参与者在与单个 MultipleVC 刺激交互时,目光主要集中在目标元素所在区域,且多数人在 0.3 秒内首次注视目标元素附近,随后有许多目光转移,SingleVC 刺激也有类似行为。
- 初步学习管道与分类结果:研究提出了一个初步的学习管道,包括原始数据收集、注视特征提取、数据预处理和基于注视的认证分类。采用留一法交叉验证评估基于注视的认证性能,使用 scikit-learn 库中的 6 种分类器进行分类。在基于单个样本(0.7 秒内 84 个注视点)的 34 人分类中,支持向量机(SVM)在 MultipleVC 和 SingleVC 数据集上分别达到了 0.682 和 0.667 的最高准确率,相比基线 ZeroR 分别提高了 64.8% p 和 63.4% p。当包含瞳孔相关注视特征时,MultipleVC 和 SingleVC 的分类准确率分别提高了 16.4% p 和 17.8% p。通过样本聚合实验发现,随着用于预测的样本数量增加,预测准确率提高,例如在 MultipleVC 中,stack-3(分析 2.1 秒的注视数据)时准确率达到 86.8%,相比单样本(stack-1)分类性能提升约 20% p,但 stack-4 和 stack-5 的准确率提升幅度较小,趋于收敛。
- 数据损失:验证数据代表了眼动追踪过程中的数据损失情况,平均验证准确率均值为 31.22,标准差为 14.33;平均验证精度 RMS 均值为 11.21,标准差为 16.82。参与者的视力矫正方法与平均验证准确率或平均验证精度 RMS 之间没有显著相关性。
研究结论与讨论
研究人员提出了 Pre-AttentiveGaze 数据集,该数据集通过从 34 名参与者的 5 次实验中收集 76,840 个注视样本构建而成,包含原始数据集和提取的注视特征数据集。独特的刺激设计结合了先前基于注视的身份验证研究成果和前注意加工概念,有效促进了快速眼动。对注视速度的分析证实,刺激在 0.7 秒的呈现窗口内成功诱导了丰富的眼动。初步学习管道展示了 Pre-AttentiveGaze 数据集及其相关刺激设计在未来基于注视的身份验证研究中的潜力,特别是在需要分析瞬间眼动的场景中。
然而,该研究也存在一些局限性。在视觉组件有效性方面,虽然设计了多种 VC 条件和级别来诱导前注意加工和复杂眼动模式,但这些条件和级别对个体注视特征的影响尚未深入探究,未来研究应关注不同刺激如何有效引发区分个体的注视特征。在注视数据收集的通用性上,研究在受控的实验室环境中进行,数据相对无噪声,但不确定视觉刺激在较少控制或 “野外” 环境中的有效性,照明条件、环境噪声等因素可能影响瞳孔直径和眼动行为,未来应开发机制减少设备规格和采样数据的影响,探索能减轻噪声影响的注视特征提取方法,同时增加参与者数量和多样性,以评估方法的通用性。在模型架构设计上,目前的研究基于基本机器学习模型,未来可探索更先进的架构,如用于深度建模的时间序列建模(如 LSTMs,长短期记忆网络[注:一种特殊的循环神经网络,能有效处理序列数据中的长期依赖问题])或基于图像输入(如注视热图)的空间建模(如 CNNs,卷积神经网络[注:一种专门为处理图像数据设计的深度学习模型,通过卷积层提取图像特征]),以显著提升性能。
总体而言,这项研究为基于注视的身份验证领域提供了宝贵的数据集和研究基础,尽管存在局限性,但为后续研究指明了方向,有望推动该领域在实际应用中的进一步发展,如在安全访问控制、设备解锁等场景中发挥重要作用,提升身份验证的安全性和便捷性。