基于深度强化学习的图像到图像转换(RL-I2IT):一种处理高维连续动作空间的高效渐进式框架
《Neural Networks》:RL-I2IT: Image-to-Image Translation with Deep Reinforcement Learning
【字体:
大
中
小
】
时间:2025年10月30日
来源:Neural Networks 6.3
编辑推荐:
本文提出了一种基于深度强化学习(DRL)的图像到图像转换(I2IT)新框架RL-I2IT。该框架通过引入元策略和“概念计划”(Plan),将复杂的单步学习任务分解为多步渐进式决策过程,有效解决了高维连续状态和动作空间的学习难题。相较于参数量庞大的单步深度学习模型(如pix2pixHD),RL-I2IT模型更轻量(仅9.7M参数),并可通过任务特定的辅助学习策略(如L2重建损失)稳定训练。在人脸修复、神经风格迁移等任务上的实验表明,该框架兼具高效性与先进性。
- •• 提出了一种新的深度强化学习(DRL)框架RL-I2IT,通过将整体学习过程分解为小步骤,来处理具有高维连续动作的复杂图像到图像转换(I2IT)问题。
- •• 为解决高维连续动作学习问题,我们提出了一种随机元策略,将决策处理分为两步:状态 → 低维计划和计划 → 动作。该计划指导行动者(Actor)预测可控的动作,并由评论者(Critic)评估计划。该方法使整个学习过程可行且计算高效。
- •• 与现有的基于深度学习(DL)的模型相比,我们基于深度强化学习(DRL)的模型是轻量级的,使其简单且计算高效。例如,与近期的一步式I2IT模型pix2pixHD(大小为45.9M)相比,我们的模型大小仅为9.7M。
- •• 我们的RL-I2IT框架能够灵活地结合许多先进的辅助学习方法,用于各种复杂的I2IT应用。在从人脸修复到神经风格迁移等多种应用上的实验结果表明,我们的方法达到了先进水平。
Image-to-Image Translation
图像到图像转换(I2IT)旨在将输入图像从源域转换到目标域,例如根据语义分割标签生成真实照片、根据具有缺失区域的图像合成完整的视觉目标、神经风格迁移等。大多数研究工作利用自动编码器通过学习过程,通过最小化预测图像与目标图像之间的重建误差来实现。
在我们的研究中,图像到图像转换(I2IT)被重新表述为一个多步决策问题,从输入图像到目标图像的转换并非一步完成。相反,我们引入一个轻量级的深度强化学习(DRL)模型来逐步执行转换,允许渐进式地添加新细节。我们将I2IT概念化为一个马尔可夫决策过程(MDP),其中转换从当前状态s进行。
在本节中,我们将我们的RL-I2IT框架应用于人脸修复任务,该任务旨在用合成的内容填充面部中心区域的裁剪部分,这些内容在语义上与原始面部一致且在视觉上真实。
RL-I2IT的设计核心重点是提供一种不限于单一任务的解决方案。我们的框架采用高度模块化设计,使其能够轻松适应各种图像转换任务,包括人脸修复、神经风格迁移和可变形图像配准。在每个应用中,RL-I2IT框架不仅在性能上媲美先进方法,甚至在某些关键指标上超越了它们。例如,在神经风格迁移任务中...
在本文中,我们提出了一个基于强化学习的框架RL-I2IT来处理I2IT问题。我们的RL-I2IT框架是一个离线的计划者-行动者-评论者模型。它能够有效地在高维连续状态和动作空间中学习良好的策略。RL-I2IT中的核心组件是提出的带有新组件“计划”的元策略,该“计划”定义在潜在子空间中,可以指导行动者生成高维可执行动作。据我们所知,...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号