
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向全噪声观测的多智能体深度强化学习去噪表征网络研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对多智能体强化学习(MARL)在完全噪声观测环境中无法学习有效策略的难题,研究人员提出PLANET框架,通过自监督去噪表征网络提取噪声特征与运动规律,结合标准MARL算法(如VDN/QMIX),在自动驾驶等现实场景中实现噪声环境下的鲁棒策略学习。该成果发表于《Engineering Applications of Artificial Intelligence》,为传感器网络等实际应用提供新范式。
在现实世界的多智能体系统中,传感器噪声如同无形的屏障,阻碍着人工智能的落地应用。自动驾驶车辆可能因摄像头受光照干扰而"失明",无人机编队会因LiDAR信号衰减而"迷路"。传统多智能体强化学习(MARL)算法在理想仿真环境中表现出色,却难以应对这种全噪声观测环境——所有外部观测值持续被零均值高斯噪声污染,且训练过程中智能体从未接触过干净观测数据。更严峻的是,现有方法要么假设存在"天赋异禀"能获取干净观测的智能体,要么仅适用于部分噪声场景,这使得真实场景中的多机器人协作系统面临巨大挑战。
针对这一瓶颈,中国研究人员在《Engineering Applications of Artificial Intelligence》发表创新成果,提出PLANET(Robust Policy Learning under Fully Noisy Observations via A Denoising Representation Network)框架。该研究首次严格定义了"全噪声观测"场景,通过双观测自监督去噪机制,使VDN、QMIX等标准MARL算法在噪声环境下学习到有效策略。关键技术包括:1)设计去噪表征网络,利用连续两次独立噪声观测构建伪真值训练;2)提取噪声特征与运动规律构建潜在空间表征;3)将去噪信息嵌入MARL的策略网络与混合网络。实验证明该方法在协同抓捕、球体推动等任务中显著优于基线算法。
DEC-POMDP建模
研究将问题建模为分散式部分可观测马尔可夫决策过程(Dec-POMDP),定义7元组M=
方法创新
PLANET的核心是级联式网络结构:首先通过LSTM编码历史观测,再用去噪网络分解两个独立噪声观测ot(1)、ot(2),以ot(2)作为监督信号优化网络参数,最终输出考虑运动动力学的去噪表征ht=fθ(ot(1),Ht-1)。
实验结果
在协同抓捕V2.0任务中,PLANET-QMIX的胜率达78.5%,较基线提升210%;噪声方差σ2=1时,仍能恢复85%的原始观测信息。
这项研究的突破性在于:首次实现无需任何干净观测的MARL训练,提出的双观测自监督机制为传感器网络等实际系统提供新思路。但需注意其局限性,如高频采样时观测独立性假设可能失效。未来可探索非线性噪声建模与量子传感器等新型硬件的结合应用。
生物通微信公众号
知名企业招聘