
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向快速相位全息生成的轻量化卷积神经网络:实现低功耗平台实时三维显示
【字体: 大 中 小 】 时间:2025年09月14日 来源:Advanced Intelligent Systems 6.1
编辑推荐:
本文提出一种基于神经网络量化的轻量化三维全息生成模型,将全精度(FP32)模型量化为8位整数(INT8)精度,在保持高质量全息重建的同时,显著降低了计算内存与功耗需求。该方法支持从单张二维图像端到端生成三维计算机生成全息图(CGH),模型体积减小60%,推理速度提升三倍,为增强现实(AR)/虚拟现实(VR)等可穿戴设备提供了切实可行的部署方案。
全息三维显示技术通过重建波前中编码的三维场景,在科学可视化、医学成像和娱乐领域展现出巨大潜力,尤其在元宇宙和增强现实(AR)/虚拟现实(VR)技术快速发展的背景下,对沉浸式虚拟环境的需求日益增长。计算机生成全息(CGH)作为核心计算技术,可通过计算手段渲染全息图以控制光波。然而,传统CGH方法存在计算成本高、实时性差的问题,尤其在处理高分辨率、密集采样的三维模型时难以在消费级硬件上实现实时计算。
近年来,基于深度学习的CGH生成策略显著加快了全息图的计算速度。其中,端到端的卷积神经网络(CNN)可直接从二维图像生成三维全息图,避免了传统方法中依赖单目深度估计(MDE)和分层角谱法(ASM)的两步流程。然而,现有深度学习模型通常依赖高性能图形处理器(GPU),导致系统体积大、功耗高,难以在资源受限的移动平台部署。
传统方法采用“两步法”:先通过MDE网络预测二维图像的深度图,再结合分层角谱法计算最终复全息图。该方法计算密集且灵活性差。相比之下,端到端CNN可直接从单张二维图像预测包含三维波前信息的复全息图,完全替代了“MDE + 分层角谱法”的功能。复全息图经过双相位编码(DPE)转换为纯相位全息图(POH),加载到空间光调制器(SLM)上即可实现三维全息显示。
本研究在原有二维到三维框架基础上进行了优化,提出一种多尺度全卷积残差网络。输入为单通道二维图像,输出为分别表示全息图振幅和相位的两个单通道分支。网络包含七个下采样残差块和七个上采样模块。为解决原有模型中反卷积模块无法量化的问题,使用“双线性插值 + 残差块”结构替代上采样模块。输出层采用深度可分离卷积块和1×1点卷积,并通过Hardtanh激活函数将输出约束在[0,1]范围内,以降低计算成本并提升量化效率。
训练数据集从COCO2017数据集中随机选择30,000张图像,所有图像调整为1536×768像素。通过MDE和分层衍射算法生成对应的真实复全息图作为训练标签。训练使用均方误差(MSE)损失函数,在NVIDIA GeForce RTX 4070 GPU平台上进行,采用Adam优化器,批量大小为2,共训练30轮,初始学习率为0.0001,每10轮减半。
在量化实验前,首先将优化后的全精度(FP32)模型与原始二维到三维框架及Holobeam模型进行对比。结果表明,优化后的CNN在定量指标(PSNR和SSIM)上与原始模型几乎一致,且在视觉重建质量上明显优于Holobeam,为后续量化工作奠定了坚实基础。
量化通过降低权重和激活值的比特精度来减小模型体积和内存占用。本研究采用PyTorch量化框架支持的三种方法:训练后动态量化(PTDQ)、训练后静态量化(PTSQ)和量化感知训练(QAT)。PTDQ在推理时动态计算裁剪范围,精度高但计算开销大;PTSQ使用校准数据集预先确定激活范围,模型体积最小但精度略低;QAT在训练过程中考虑量化,精度最高但需要额外训练时间。
通过数值仿真评估FP32和INT8模型在输出质量、模型大小和速度方面的表现。测试图像选自SceneFlow数据集,分辨率为1536×768。结果表明,各INT8模型生成的复全息图在三维重建质量上与FP32模型相当,PTDQ方法的输出质量最接近FP32,PTSQ和QAT也表现出较高性能。
量化后模型大小和运行时间显著降低:PTSQ将模型体积减小至FP32的33%,运行速度提升三倍;QAT将模型体积减小60%,速度提升两倍以上,且保持与FP32模型相近的性能。具体数据见表1。
实验采用HOLOEYE PLUTO-2-VIS-014反射式SLM,分辨率1920×1080,像素间距6.4μm,波长532nm。通过4f系统传递全息图,在傅里叶平面放置孔径光阑滤除零级和高阶衍射噪声。重建的三维图像经目镜放大后由高分辨率数码相机记录。
选择COCO、Make3D、NYU数据集及《Big Buck Bunny》合成场景图像作为输入,通过QAT方法量化的INT8模型生成三维CGH。实验结果显示,重建的三维图像在前后焦面(z=1mm和z=12mm)均能清晰聚焦,且几乎无散斑噪声,光学重建质量与仿真结果一致。
进一步使用SceneFlow数据集中的合成场景图像测试各量化方法(PTDQ、PTSQ、QAT)的INT8模型。结果表明,所有INT8模型均能生成高质量的全息图,光学重建效果与FP32模型相当,其中PTDQ最接近FP32,PTSQ和QAT也表现出色,证明了CNN在不同量化方法下均具有较强的泛化能力。
训练数据通过预训练的Depthanything网络预测深度图,将灰度图像与深度图逐像素对齐生成密集三维体光波数据。基于点云衍射模型,复波前由所有体素点贡献计算,并通过角谱传播加速计算,为CNN训练提供了充分的数据支持。
FP32模型参数量约为386,598,训练时间约25小时。量化过程中,PTSQ使用100张未见过的图像作为校准集,校准过程耗时约1小时;QAT训练时间约8小时。性能测试在Intel Core i7-14700KF CPU上进行,模型大小通过导出文件属性测量。
该模型仅支持二维图像输入,无法利用已有的深度信息,限制了其在某些场景下的灵活性。此外,光学重建质量仍有提升空间,未来可通过相机在环优化(camera-in-the-loop)进一步改善实际重建效果。
本研究通过神经网络量化实现了端到端二维到三维全息生成模型的轻量化,优化后的INT8模型在保持高质量全息重建的同时,显著降低了模型体积和计算时间。光学实验成功验证了量化模型的有效性,为在资源受限平台部署神经网络驱动的计算全息技术提供了可行方案,对推动移动端AR/VR显示系统的发展具有重要意义。
生物通微信公众号
知名企业招聘