基于深度强化学习的图像到图像转换（RL-I2IT）：一种处理高维连续动作空间的高效渐进式框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：RL-I2IT: Image-to-Image Translation with Deep Reinforcement Learning

【字体：大中小】 时间：2025年10月30日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出了一种基于深度强化学习（DRL）的图像到图像转换（I2IT）新框架RL-I2IT。该框架通过引入元策略和“概念计划”（Plan），将复杂的单步学习任务分解为多步渐进式决策过程，有效解决了高维连续状态和动作空间的学习难题。相较于参数量庞大的单步深度学习模型（如pix2pixHD），RL-I2IT模型更轻量（仅9.7M参数），并可通过任务特定的辅助学习策略（如L2重建损失）稳定训练。在人脸修复、神经风格迁移等任务上的实验表明，该框架兼具高效性与先进性。

Highlight

•
• 提出了一种新的深度强化学习（DRL）框架RL-I2IT，通过将整体学习过程分解为小步骤，来处理具有高维连续动作的复杂图像到图像转换（I2IT）问题。
•
• 为解决高维连续动作学习问题，我们提出了一种随机元策略，将决策处理分为两步：状态 → 低维计划和计划 → 动作。该计划指导行动者（Actor）预测可控的动作，并由评论者（Critic）评估计划。该方法使整个学习过程可行且计算高效。
•
• 与现有的基于深度学习（DL）的模型相比，我们基于深度强化学习（DRL）的模型是轻量级的，使其简单且计算高效。例如，与近期的一步式I2IT模型pix2pixHD（大小为45.9M）相比，我们的模型大小仅为9.7M。
•
• 我们的RL-I2IT框架能够灵活地结合许多先进的辅助学习方法，用于各种复杂的I2IT应用。在从人脸修复到神经风格迁移等多种应用上的实验结果表明，我们的方法达到了先进水平。

Image-to-Image Translation

图像到图像转换（I2IT）旨在将输入图像从源域转换到目标域，例如根据语义分割标签生成真实照片、根据具有缺失区域的图像合成完整的视觉目标、神经风格迁移等。大多数研究工作利用自动编码器通过学习过程，通过最小化预测图像与目标图像之间的重建误差来实现。

Problem Formulation

在我们的研究中，图像到图像转换（I2IT）被重新表述为一个多步决策问题，从输入图像到目标图像的转换并非一步完成。相反，我们引入一个轻量级的深度强化学习（DRL）模型来逐步执行转换，允许渐进式地添加新细节。我们将I2IT概念化为一个马尔可夫决策过程（MDP），其中转换从当前状态s进行。

Face Inpainting

在本节中，我们将我们的RL-I2IT框架应用于人脸修复任务，该任务旨在用合成的内容填充面部中心区域的裁剪部分，这些内容在语义上与原始面部一致且在视觉上真实。

General Framework

RL-I2IT的设计核心重点是提供一种不限于单一任务的解决方案。我们的框架采用高度模块化设计，使其能够轻松适应各种图像转换任务，包括人脸修复、神经风格迁移和可变形图像配准。在每个应用中，RL-I2IT框架不仅在性能上媲美先进方法，甚至在某些关键指标上超越了它们。例如，在神经风格迁移任务中...

Conclusion

在本文中，我们提出了一个基于强化学习的框架RL-I2IT来处理I2IT问题。我们的RL-I2IT框架是一个离线的计划者-行动者-评论者模型。它能够有效地在高维连续状态和动作空间中学习良好的策略。RL-I2IT中的核心组件是提出的带有新组件“计划”的元策略，该“计划”定义在潜在子空间中，可以指导行动者生成高维可执行动作。据我们所知，...

联系信箱：

粤ICP备09063491号

热点排行