
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Shapley值的多模态深度强化学习在复杂决策中的贡献优化与协同机制研究
【字体: 大 中 小 】 时间:2025年06月22日 来源:Neural Networks 6.0
编辑推荐:
【编辑推荐】针对复杂多模态环境中样本表征冲突与有效样本不足的挑战,本研究提出融合知识增强与Shapley值评估的多模态深度强化学习(MMDRL)框架SVMM。通过构建多模态协同感知模型,量化模态贡献度并优化策略,在MuJoCo/Atari等场景中显著提升决策精度与效率,为自动驾驶等现实任务提供新范式。
在人工智能领域,深度强化学习(Deep Reinforcement Learning, DRL)已成功应用于游戏模拟和机器人控制等序列决策任务。然而,当面对自动驾驶这类需要整合视觉、雷达等多源信息的复杂场景时,传统DRL的单一模态输入模式暴露出语义提取不足的缺陷。更棘手的是,现实环境中多模态数据常存在表征冲突,而有效训练样本的稀缺进一步制约模型性能。这些瓶颈促使研究者探索多模态深度强化学习(Multi-Modal DRL, MMDRL)的新路径。
为解决上述问题,研究人员提出创新性框架SVMM(Shapley Value-based Multi-Modal DRL)。该研究首先通过知识驱动的样本增强技术扩充训练集,继而将多模态感知建模为多智能体协作问题,引入博弈论中的Shapley值量化各模态贡献,最终在连续动作空间中实现策略优化。相关成果发表于《Neural Networks》,为复杂环境决策提供新思路。
关键技术包括:1)基于知识图谱的样本增强方法;2)多模态马尔可夫决策过程建模;3)Shapley值贡献度评估与随机采样近似计算;4)深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法优化。实验采用MuJoCo物理引擎和Atari游戏环境验证有效性。
算法描述
研究团队构建了包含图像、语音和知识数据的扩展马尔可夫决策过程(MDP),提出SVMM算法框架。通过Shapley值分析模态间协同效应,采用DDPG更新策略网络,显著降低传统方法计算复杂度。
实验验证
在迷宫、MuJoCo和Atari三类场景的对比实验中,SVMM在累积奖励和收敛速度上均超越基线模型。消融实验证实知识增强使样本利用率提升37%,而Shapley值机制使冲突模态的决策准确率提高21%。
总结与展望
该研究通过Shapley值驱动的多模态协同机制,突破传统DRL在复杂环境中的决策瓶颈。创新性地将博弈论与强化学习结合,不仅为自动驾驶等应用提供解决方案,更开辟了多智能体协作决策的新研究方向。未来工作可进一步探索模态动态权重调整与分布式计算优化。
生物通微信公众号
知名企业招聘