具有多目标表示对齐的视觉强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

具有多目标表示对齐的视觉强化学习

《IEEE Transactions on Cognitive and Developmental Systems》：Visual Reinforcement Learning with Multi-Objective Representation Alignment

【字体：大中小】 时间：2025年11月22日 来源：IEEE Transactions on Cognitive and Developmental Systems 4.9

编辑推荐：

　　视觉强化学习通过多目标表示对齐提升样本效率与泛化能力，采用层次化特征融合和互补表示对齐模块解决高维输入难题。

摘要：

视觉强化学习（VRL）旨在直接从像素数据中学习最优策略，这在数据稀缺和环境复杂的控制系统应用中具有巨大潜力。然而，由于高维输入的影响，智能体的表示学习能力受到显著限制，导致当前的视觉强化学习方法训练效率低下且泛化能力差。因此，本文提出了一种具有多目标表示对齐（MORA）的视觉强化学习方法，该方法包括：（i）一个层次化表示融合模块，用于融合多尺度视觉特征；（ii）一个补充性的表示对齐模块，协调三个自监督目标：单向预测目标（UPO）、表示一致性目标（RCO）和重建对齐目标（RAO）。这种协同作用稳定了潜在空间的拓扑结构，同时统一了与任务相关的特征，有效缓解了表示崩溃问题。在DMControl上的大量实验表明，MORA在样本效率和连续控制任务的泛化能力方面优于现有的VRL方法。全面的消融研究验证了每个组件的贡献，并强调了多目标协同优化的关键性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号