
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自监督探索的动态相关表征学习框架提升视觉强化学习泛化能力
【字体: 大 中 小 】 时间:2025年07月05日 来源:Neural Networks 6.0
编辑推荐:
针对视觉强化学习(RL)中因任务无关视觉干扰导致的泛化性能下降问题,研究人员提出新型自监督探索框架,通过视觉差异推理模块(VDIM)和分布差异探索模块(EDDM)协同优化动态相关表征,在DMControl-GB等三大测试环境中实现样本效率与泛化能力的显著提升,为复杂场景下的视觉决策提供新范式。
论文解读
在自动驾驶和机器人操作等现实场景中,视觉强化学习(RL)智能体常因环境外观变化而表现失常——训练时表现优异的自动驾驶模型,遇到雨天反光或广告牌干扰就可能失控。这一现象的核心在于传统方法难以从高维视觉输入中分离任务相关特征,且探索机制易受静态技能限制,导致泛化能力不足。尽管自监督学习(SSL)通过数据增强提升表征鲁棒性,但简单结合SSL与RL会忽略潜在信息的决策价值,加剧探索偏差。
为解决这一挑战,中国国家自然科学基金支持的研究团队提出创新性自监督探索框架。该框架通过双模块协同机制:视觉差异推理模块(VDIM)利用跨视图共享特征学习和正则化约束,过滤预测力不足的干扰信息;分布差异探索模块(EDDM)则以推理差异作为新颖性信号,引导智能体主动探索高认知不确定性区域。在DMControl-GB基准测试中,该方法较现有技术样本效率提升37%,在CARLA自动驾驶任务中跨场景成功率提高2.1倍。
关键技术方法
研究采用软演员-评论家(SAC)算法为基础架构,结合三阶段技术路线:(1)构建多视角观测数据集,通过VDIM模块的类别分布推断实现特征解耦;(2)设计基于Wasserstein距离的分布差异度量,驱动EDDM模块的边界探索;(3)在DMControl-GB、Franka机械臂操作平台和CARLA 0.9.11仿真器构建跨模态测试环境,采用零样本迁移评估泛化性能。
研究结果
视觉差异推理模块(VDIM)有效性
通过对比实验证明,VDIM的跨类别一致性正则项使关键特征提取准确率提升19.8%,在存在动态背景干扰的Cartpole任务中保持98.3%的稳定控制率。
分布差异探索机制优势
EDDM模块相较于传统内在奖励方法,在Reacher任务中探索覆盖率扩大2.4倍,训练初期即可发现78%的关键状态空间区域。
跨域泛化性能验证
在CARLA的Town05至Town07跨地图测试中,该方法成功率达67.3%,显著优于CURL(51.2%)和DrQ(58.1%)。机械臂抓取任务的材质泛化测试显示,面对未训练过的金属纹理时仍保持82%抓取精度。
结论与意义
该研究开创性地将表征学习深度嵌入RL决策链路,通过动态相关特征提取与主动探索的协同优化,突破视觉RL在复杂场景中的应用瓶颈。理论层面,VDIM的分布对齐机制为表征解耦提供新思路;实践层面,EDDM的边界探索策略为样本效率难题提供解决方案。论文发表于《Neural Networks》的这项成果,不仅为机器人适应开放环境奠定基础,其模块化设计思路更可扩展至医疗影像分析等跨模态决策领域。
生物通微信公众号
知名企业招聘