
-
生物通官微
陪你抓住生命科技
跳动的脉搏
光学生成模型:高效节能的AI图像合成新范式
【字体: 大 中 小 】 时间:2025年08月29日 来源:Nature 48.5
编辑推荐:
这篇研究展示了光学生成模型(Optical Generative Models)在快速、低功耗合成全新图像方面的突破性进展。通过浅层数字编码器将随机噪声映射为相位种子,结合自由空间可重构衍射解码器(diffractive decoder),实现了手写数字、时尚单品、人脸等多样化图像的全光学生成。该技术摆脱了传统数字生成模型(如DDPM)的高算力依赖,仅需照明功率和浅层编码运算,为AI生成内容(AIGC)提供了可扩展的节能解决方案,在边缘计算、增强现实等领域具有重要应用潜力。
光学生成模型的设计与原理
受扩散模型(DDPM)启发,研究团队开发了一种混合架构:浅层数字编码器将二维高斯噪声快速转换为相位图案作为光学生成种子,而固定衍射解码器通过自由空间光传播实现图像合成。该系统核心在于相位编码的非线性特性——输入SLM的相位种子φ(x,y)经exp(jφ)调制后,由多层衍射结构(400×400可调相位单元)进行全光处理,最终在传感器形成目标分布图像。实验采用520nm激光照明,单次生成耗时<1ns,刷新率仅受SLM帧率限制(当前60Hz)。
多模态图像生成性能
模型在MNIST、Fashion-MNIST等数据集上实现类间多样性生成:
手写数字生成IS值达2.35±0.12,显著高于原数据集(P<0.05)
时尚单品生成FID为180.57,与数字模型(如9层MLP)相当
蝴蝶和Celeb-A人脸的多色生成中,三波长(450/520/638nm)解码共享同一衍射层,输出衍射效率达50%
值得注意的是,Van Gogh风格艺术品生成采用5.8亿参数编码器,其CLIP分数与教师模型(10亿参数DDPM+1000步去噪)语义对齐度达85%,而能耗仅为数字方法的1/220。
迭代式光学生成创新
针对复杂分布,团队开发了迭代版本:
初始噪声经Lo=5层衍射网络生成低分辨率图像
传感器捕获图像后添加计划噪声,作为下一时间步输入
经T=1000次循环后输出高清图像
该方法在Celeb-A数据集上FID降至68.3,且避免了模式坍塌——通过时间步解耦,将分布映射分解为独立高斯过程。无编码器版本虽能运行,但图像多样性下降37%。
实验验证与能效优势
可见光实验系统包含:
输入SLM(8μm像素,1920×1200)
衍射解码SLM(8μm像素,1000×1000相位单元)
QImaging Retiga-2000R传感器
测试显示:
28×28像素数字生成能耗0.003-0.033mJ/幅
640×640艺术品生成总功耗<58mJ,较数字DDPM(265-2916J)节能3个数量级
相位编码是关键——相比振幅编码,其FID降低42%,且支持3离散相位水平(0/2π/3/4π/3)的简易纳米加工解码器。
应用前景与安全扩展
研究还展示了波长复用隐私保护方案:同一相位种子在不同波长下经专属衍射解码器生成独立图像,交叉干扰<15dB。这种物理密钥机制可用于:
多人AR眼镜的个性化内容投送
防伪标签的光学动态生成
未来通过增加衍射层数(当前5层)和偏振维度,可进一步提升三维全息生成能力,为医疗影像、神经形态计算等领域提供新型光学AI解决方案。
生物通微信公众号
知名企业招聘