《Nature Communications》:In-sensor analog optoelectronic processing of concurrent event and memory signals for dynamic vision sensing
编辑推荐:
本研究针对动态视觉感知中瞬时事件捕获与时间上下文整合的挑战,提出了一种传感器内模拟双响应像素架构。该架构通过集成硅酸盐/石榴石荧光粉对与硅光电二极管及跨阻放大器,实现了微秒级事件尖峰与毫秒级记忆尾迹的并发生成。研究证实,该传感器能高保真重建事件帧(SSIM~0.94),其记忆通道可作为线性储备池存储运动历史。将单帧记忆图像输入轻量级卷积神经网络,在人体动作分类(93.1%)、车辆轨迹分类(98.0%)及速度估计(MAE 2.15 km/h)任务中表现优异。结合光学神经网络前端压缩(4,900→16),分类准确率达93.3%。该技术消除了模数转换与数字积累需求,为超低延迟、超低功耗神经形态视觉系统开辟了新路径。
在机器人、自动驾驶和智能监控等领域,实时高效地感知动态场景至关重要。传统帧基视觉传感器以固定间隔捕获完整图像,虽然提供丰富的空间上下文,却存在高数据冗余的弊端——静态背景被反复处理,导致带宽需求、功耗和处理延迟显著增加。事件基视觉传感器(又称神经形态或动态视觉传感器DVS)作为有吸引力的替代方案应运而生。它们异步输出像素级亮度变化,生成稀疏的事件流,具备微秒级延迟、高时间分辨率和高动态范围的优势。通过过滤冗余静态信息,DVS大幅降低了数据吞吐量和能耗,并在快速运动时最小化运动模糊。
然而,DVS输出本质上是无状态的,限制了其捕获持续上下文或运动轨迹的能力。在传统处理流程中,运动持久性需要通过(i)计算原始帧间的像素级差异以产生事件帧(或直接由DVS捕获),(ii)通过模数转换(ADC)转换这些事件信号,以及(iii)将其数字累积成记忆帧来重建。这种多步骤数字处理引入了额外的延迟、功耗和硬件复杂性。尽管混合/事件-强度传感器(如DAVIS和ATIS)能同时提供异步事件和绝对强度,但恢复长期时间上下文通常需要传感器外缓冲或数字累积,这增加了系统级延迟和复杂性。
近年来,将短时记忆功能直接嵌入传感器内部可极大增强动态感知能力的研究进展显著。视网膜形态光记忆电阻阵列和基于二维异质结构的传感器能够固有地编码时间运动历史,实现“传感器内储备池”处理,从而消除冗余数据传输并提供对累积运动上下文的即时访问。然而,大多数现有实现依赖于发光或光电导材料(例如长余辉荧光粉或累积光电导体),其记忆响应主要由外部编码的事件尖峰样脉冲触发,反映的是像素强度变化。这一限制阻止了单个像素在单级中同时捕获瞬时事件和持久运动上下文。
为了突破传统DVS管道的局限,研究人员提出了一种传感器内双响应像素架构,该架构在像素级别直接在模拟域执行瞬时事件检测和时间积分。每个像素包含两个并联的光传感器,它们具有不同的快速响应动力学特性以及持续发光尾迹(毫秒尺度)的幅度差异。对其输出进行实时模拟差分测量,可产生(i)每当光照发生变化时出现的由快速响应动力学失配引起的事件尖峰,以及(ii)由慢速上升和慢速衰减动力学差异引起的、在每个尖峰后持续存在的记忆尾迹。这种方法显著降低了系统延迟、功耗和复杂性。
本研究的关键技术方法包括:制备硅酸盐(Sr2SiO4:Eu2+)和石榴石(Lu3Al5O12:Ce3+)荧光粉嵌入PDMS(聚二甲基硅氧烷)的柔性荧光薄膜;构建由荧光薄膜、长通滤波器和硅光电二极管与跨阻放大器(TIA)集成的AEMS(模拟事件-记忆传感器)单元;利用Weizmann人体动作数据集和合成交叉路口数据集进行动态视频回放测试,提取事件帧和记忆帧;采用轻量级卷积神经网络进行动作分类、轨迹分类和速度回归分析;构建集成光学神经网络(ONN)的混合处理管道,实现光学矩阵向量乘法压缩。
事件与记忆信号通过响应速度失配进行检测
像素级传感器架构(AEMS)包含传感器A(硅酸盐荧光粉+Si PD+TIA)和传感器B(石榴石荧光粉+Si PD+TIA)。时间分辨光致发光测量显示,硅酸盐和石榴石的固有光致发光寿命分别约为1.5微秒和200纳秒。此外,硅酸盐表现出明显的持续发光(余辉)尾迹,而石榴石的持续发光可忽略不计。在标准配置下,传感器A的TIA(反馈电阻Rf=1.5 MΩ)表现出9 kHz的3 dB带宽(τTIA≈18 μs),而传感器B的TIA(Rf=4.75 MΩ)的3 dB带宽为3 kHz(τTIA≈53 μs)。在这种情况下,有效的电响应由TIA的低通特性主导,而不是荧光粉短得多的固有PL寿命。在100毫秒LED开/关方波下,传感器A和B的10-90%上升/下降时间tr分别约为50微秒和120微秒。差分输出Vout(t)=VA(t)-VB(t)在LED开启时由于传感器A更快的动力学特性产生立即的正尖峰,在关闭时产生负尖峰。尖峰持续时间约100微秒,但调整TIA的反馈电阻可将其缩短至2.4微秒。每个尖峰之后,硅酸盐的持续发光(在石榴石通道中几乎不存在,幅度小于5%)在Vout中产生缓慢衰减的尾迹。两个TIA时间常数与硅酸盐余辉动力学的卷积产生了编码瞬时事件和时间记忆的模拟轨迹(主导衰减时间τ~45 ms)。阶跃强度实验证实,每个亮度转换都会引发重复尖峰,每个尖峰导致尾迹的立即增加或减少,并随时间逐渐衰减。
利用模拟事件-记忆传感器进行真实视频测试
为了验证模拟事件+记忆传感方法,研究人员使用受控LED刺激,将动态视频片段中的像素级亮度时间轨迹回放到AEMS上。从Weizmann人体动作数据集中选择93个片段(每个包含21帧70x70像素,涵盖十个动作类别),并将每个像素的8位强度转换为相应的LED强度序列。示例LED强度波形显示,每个亮度转换产生快速的差分尖峰,随后是较慢衰减的尾迹。通过聚合每个时间步所有像素的尖峰出现情况,重建了事件帧,其与数字计算的帧差密切匹配(平均SSIM~0.94,MAE~0.02)。同时,跨像素整合尾迹幅度形成记忆图像,以类似于帧累积的方式捕获运动持久性。这些模拟记忆图像与应用于事件帧输入的线性储备池模型的输出在质量上一致。因为它们反映了尖峰累积后的逐渐衰减,记忆帧有效地随时间保存了运动轨迹。与直接将线性储备池模型应用于原始帧输入的情况不同,本研究的记忆帧从基于事件帧的动态生成,因此保留了尖峰极性(±)并抑制了冗余背景,从而以减少的数据冗余产生了更丰富的时间历史。
动态图像分类的学习与评估
为了量化每个信息通道的益处,研究人员在从Weizmann人体动作数据集衍生的三种合成模态上训练了轻量级CNN。每个模态产生了18,600个样本,按80/20分割用于训练和验证。训练使用了硬件校准的事件帧/记忆帧数据集,该数据集嵌入了测量的AEMS特性(噪声统计、短/长期漂移、基于查找表校准曲线的非线性响应以及帧间时空相关性),测试使用了独立的AEMS测量的原始帧和事件帧/记忆帧。在单模态实验中,基于原始帧的模型表现最差,训练和验证准确率在20个周期后仍低于45%。事件帧从校准中适度受益,但测试准确率保持在69%。记忆帧通过校准获得了最大增益,从校准前约91%、85%和82%(训练/验证/测试)的准确率提高到97%、96%和93%,并在第17个周期稳定收敛。对于最小的双通道融合,事件帧加记忆帧达到了约96%、96%和92%(训练/验证/测试)的准确率,比校准前融合提高了约3.3个百分点,但略低于单独使用记忆帧。混淆矩阵显示,在事件帧下模糊的动作对在使用记忆帧时被有效区分,强调了记忆帧在编码累积的连续时空模式方面的优势。
交叉口环境中车辆动力学的评估
对于一个以速度v移动的物体,沿其轨迹的连续空间记忆轨迹A(ξ)遵循指数分布A(ξ)∝exp(-ξ/?),其中ξ表示沿运动的弧长,?=vτ是特征轨迹长度。这一特性意味着基于AEMS的记忆滤波器为轨迹和速度估计提供了自然线索。为了评估部署相关交叉口场景下的传感器内事件加记忆管道,生成了一个包含510个短视频片段的合成数据集,描绘车辆穿越四路交叉口的情景。车辆从顶部、左侧或右侧道路进入,并通过直行、左转或右转轨迹退出,速度通过调整每帧位移在30至60公里/小时之间变化。从每个片段中,提取一个覆盖出口区域的36x36像素块,并以10毫秒间隔采样21帧。每个块的像素强度时间序列通过AEMS回放,产生模拟响应,从中重建事件帧和记忆帧。对于分类和回归,将这些事件帧和记忆帧序列分割成90%训练和10%未见测试集。最终帧事件帧和记忆帧显示,事件帧随速度和方向仅呈现细微差异,而记忆帧通过整合模拟尾迹,清晰地揭示了编码轨迹和速度的运动轨迹。在严格的单帧、等延迟设置下(在最后一帧结束时决策),轻量级CNN在最终帧上显示,仅事件帧模型过拟合(测试准确率58.8%),而仅记忆帧模型达到98.0%。对于速度估计,使用Huber损失训练的CNN回归器,使用事件帧达到4.77公里/小时(10.6%)的平均绝对误差(平均绝对百分比误差),使用记忆帧达到2.15公里/小时(4.9%),对应于单个记忆帧在95%置信度下约±5.3公里/小时。
通过ONN-AEMS混合管道进行高效运动分析
高分辨率动态图像序列在数字处理时带来显著计算负担。为了解决这个问题,研究人员提出将光学神经网络与基于AEMS的模拟处理管道集成,使大多数计算密集型操作能够在光学和模拟域中执行。每个70x70像素的帧通过单次矩阵向量乘法压缩到一个16维特征向量。在实现中,原始帧被复制到16个并行通道(光学“扇出”),每个通道由预训练的4,900x16权重掩模(以灰度编码)进行调制。所有4,900个像素每通道的调制输出被求和到一个光电探测器上(光学“扇入”),一次性完成完整的4,900x16矩阵向量乘法。在21个连续帧上,光学神经网络每帧产生一个16维输出向量。这些被转换为16通道LED驱动,并记录AEMS的模拟尖峰和尾迹响应。从这些记录中,提取:(i)压缩事件帧——每个20个帧间转换处的尖峰幅度,以及(ii)压缩记忆帧——这些转换后立即的尾迹幅度。因此,压缩事件帧和压缩记忆帧都表示为20帧x16通道的矩阵。从4,650个增强视频序列的AEMS输出中,每个序列选择13个压缩事件帧和13个压缩记忆帧(总共26帧x16通道=416维)。这对应于从原始102,900维输入(21帧x70x70像素)减少了247倍。训练一个轻量级分类器(64单元ReLU密集层后接10单元softmax)来预测十个动作类别之一。训练后,在测试集上实现了约93.3%的分类准确率。大多数动作类别被良好区分,除了“双手挥舞”和“单手挥舞”之间存在一些混淆,这可能是因为它们在压缩的16维特征空间中具有相似的时空特征。研究人员进一步调查了帧数对分类准确率的影响。从完整的20个压缩事件帧和20个压缩记忆帧集合开始,逐步将配对输入的数量从40减少到2(即n个压缩事件帧+n个压缩记忆帧,n从20到1)。结果显示,测试准确率作为压缩比的函数,当压缩比超过约一千倍时,准确率适度下降,但在三百倍时仍保持在90%以上。与理想化模拟相比,测量的准确率低几个百分点,这可能是由于光学未对准、传感器噪声以及只有分类器(而非光学神经网络压缩器)在真实数据上重新训练所致。这些模拟表明,通过改进对准、硬件保真度和完整的端到端训练,即使在极端压缩下,准确率也可能超过96%。
本研究引入的模拟尖峰和尾迹框架与现有动态视觉架构相比,其新颖性和系统级优势显著。不同于传统DVS(仅事件)和混合传感器(如DAVIS/ATIS,事件+绝对强度)通常通过缓冲或数字累积在传感器外重建长期时间上下文,AEMS将时间信息作为模拟状态保存在像素平面。这从延迟关键路径中移除了每帧ADC和外部帧存储器访问,从而降低了延迟和功耗,并简化了数据路径。这种双模态(“事件+本地记忆”)简化了包含快速和慢速物体的场景中的跟踪、分离和预测,同时保持了DVS级别的时间性能。通过直接在像素平面执行事件检测和记忆积分,本系统在原型测量中实现了50-100微秒的事件延迟,并且在使用更高带宽TIA时可行于小于2微秒。阵列级可扩展性和高帧率时间保真度源于事件帧和记忆帧随帧间隔Δt的互补缩放特性。事件帧保真度受益于Δt的减小,直到受尖峰宽度w、帧边界分割和操作员选择限制,而记忆帧信噪比随Δt增大而增加。这种互补性使得阵列尺度操作能够维持DVS级别的时间性能,同时为时间上下文提供本地模拟记忆。
模拟方法在功率效率和硬件简单性方面提供了主要优势。虽然当前原型功耗低于5瓦(包括驱动器和接口),但基于180纳米模拟CMOS、VDD=1.2V、有效闭环带宽约30 kHz(事件帧)和3 kHz(记忆帧)以及平均活动度低于10 kevents/s/像素的ASIC projections表明,每像素功耗约0.3毫瓦,在现实占空比下平均系统功耗远低于1瓦。通过从延迟关键路径中移除每帧ADC和传感器外帧存储器访问——并将任何必要的数字化推至系统边界的低速率摘要——集成得以简化,外形尺寸减小,制造复杂性降低。一个核心创新是模拟“尾迹”信号,它在传感器平面本地编码时间信息,避免了数字记忆累积的延迟和能量开销。
关于面积和可制造性,研究人员量化了双通道事件帧/记忆帧像素的像素布局开销及其CMOS兼容性。在10-15微米像素间距假设下,逻辑共享(重用比较器、地址事件表示接口和列外围电路)将面积开销限制在约20-50%,避免了简单的两倍损失。还详细介绍了用于持续发光荧光粉的CMOS兼容后端制程集成流程,该流程使用光图案化聚合物-荧光粉复合材料,热预算不超过150°C,类似于CMOS图像传感器的彩色滤光片阵列和微透镜处理,具有从100微米原型间距到10-15微米的实用缩放路径。总之,AEMS以DVS级别的速度提供高保真事件加本地记忆流,同时提高了效率、硬件紧凑性和数据丰富性。这些属性使得下游感知更加准确,并简化了端到端系统设计。
这项由Yelim Kim、Hyeonsu Park等研究人员完成的工作,成功地将传感器内计算、模拟光电处理和神经形态视觉原理相结合,提出并验证了一种创新的动态视觉传感架构。该研究为解决传统视觉传感器在实时动态场景感知中的延迟、功耗和数据冗余问题提供了有效的解决方案,展示了在人体动作识别、车辆轨迹分类和速度估计等实际任务中的卓越性能。通过集成光学神经网络前端,进一步提升了处理效率。该成果发表于《Nature Communications》,为下一代超低功耗、超低延迟的智能视觉系统,特别是在自动驾驶、机器人技术和智能监控等领域的应用,奠定了坚实的技术基础,标志着神经形态视觉硬件发展的重要一步。