基于垂直集成VCSEL阵列的高速光学神经形态图形处理单元实现每秒2500万帧图像处理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《eLight》：High-throughput optical neuromorphic graphic processing at millions of images per second

【字体：大中小】 时间：2025年10月21日 来源：eLight 32.1

编辑推荐：

　　本刊推荐：为突破相干光衍射神经网络(DNNs)在集成度、计算频率和衍射效率方面的局限，Dong等人开展了名为"Gezhi"的光学图形处理器(OGPU)研究。该研究利用可寻址垂直腔面发射激光器(VCSEL)阵列构建互不相干衍射神经网络(MI-DNNs)，实现了每秒2500万帧的图像处理速度，计算能力达77.3 TOPS，能效达950 TOPS/W。这项研究为后摩尔时代的高通量光学计算提供了新范式。

在人工智能飞速发展的今天，大型模型如GPTs对计算能力的需求每3.4个月翻倍，传统电子GPU已难以满足需求。光学神经形态计算凭借光速传播和被动传输的特性，展现出巨大潜力。其中，自由空间中的光学衍射神经网络(DNNs)特别适合高通量光学处理，但完全依赖相干光干涉限制了其集成度、计算频率和衍射效率。

面对这些挑战，上海理工大学的研究团队在《eLight》发表了创新性研究，开发出名为"Gezhi"的光学图形处理器(OGPU)。该器件采用三维垂直集成架构，通过可寻址VCSEL阵列实现了高速平面信息扇入，每个单元具有单独相干、相互不相干(MI)的特性。

研究人员开发了MI-DNNs，既保留了相干计算的优点，又利用了空间非相干光的直接操作。整个计算系统可小型化为手持尺寸，在每帧3.52 aJ/μm²的超低光条件下高效工作，图像处理速度达到创纪录的每秒2500万帧。

关键技术方法包括：设计并制备了8×8可寻址VCSEL阵列作为输入设备；开发了MI-DNNs的前向传播模型和训练方法；采用双面光刻和等离子体干法刻蚀技术在石英板上制作了双层衍射神经网络芯片；通过场可编程门阵列(FPGA)电路实现高速驱动控制。

2 Results

2.1 Architecture of the OGPU

OGPU采用垂直架构设计，包含三个功能模块：可寻址VCSEL阵列、MI-DNN芯片和探测器。VCSEL阵列作为高速图像扇入设备，发射846.5纳米波长的光，通过FPGA电路驱动可显示任意64位图像。整个自由空间系统的输入到输出距离仅约7毫米，实现了超紧凑的手持尺寸设计。

2.2 Principle of the OGPU

VCSEL阵列中单元间距设置为100微米，超过了相位锁定所需的耦合距离，使得VCSEL之间呈现相互不相干特性。MI-DNNs利用VCSEL的单独相干性进行元胞乘法运算，利用相互不相干性进行加法运算，重新定义了DNNs的计算范式。这种混合方法不仅保留了相干光DNN的优点，还实现了高达26.02%的衍射效率，并对相位噪声表现出强鲁棒性。

2.3 High-throughput image classification

实验结果表明，OGPU在2类MNIST数据集上的分类准确率达到98.6%，在10类MNIST数据集上达到74.6%，在4类EMNIST数据集上达到75.5%。在25 MHz的工作频率下，系统仅用40微秒就识别了1000张图像，处理速度达到每秒2500万帧，每帧延迟仅为2.05纳秒。系统在极低光条件下工作，每帧平均光能量仅为7.42 pJ（数字"0"）和3.52 pJ（数字"1"）。

2.4 Performing image processing

除了分类任务，OGPU还能作为图像处理内核，执行边缘提取和去噪等任务。通过VCSEL的可编程能力，系统可对任意二值图像进行处理。2D阵列配置使得多个边缘提取内核能够并行工作，显著提高了信息处理吞吐量。实验证明，OGPU执行3×3像素高斯卷积去噪后，图像的峰值信噪比(PSNR)从6.93 dB提升至12.35 dB。

3 Discussions

3.1 Computational power and efficiency

OGPU的计算能力随VCSEL阵列尺寸可扩展。在25 MHz工作频率下，系统对2类MNIST任务的计算能力达到77.3 TOPS，能效为950 TOPS/W。这种卓越性能主要源于光学连接的并行性和VCSEL通道的相互独立性。

3.2 Future scalability of the performance

OGPU的性能仍有大幅提升空间。VCSEL和光电探测器本身支持GHz级调制速度，当前系统频率主要受FPGA板和驱动芯片限制。通过开发专用驱动电路，系统时钟频率可显著提高。此外，扩大可寻址VCSEL阵列的尺寸将直接提升处理吞吐量。未来可将衬底发射VCSEL阵列与专用CMOS芯片倒装焊合，实现超过每秒10亿帧的处理速度。

研究团队成功开发了基于垂直集成VCSEL阵列的OGPU系统，突破了现有三维衍射光学计算平台在频率和尺寸方面的限制。该系统通过MI-DNNs与VCSEL阵列的集成，在紧凑架构中实现了高速图像识别、边缘提取和去噪任务。OGPU每秒2500万帧的处理速度、77.3 TOPS的计算能力和950 TOPS/W的能效水平，为下一代高性能、高能效AI硬件提供了有前景的平台，在自动驾驶、大语言模型和智能医疗等需求旺盛的AI应用中具有重要价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号