一种基于协作式深度强化学习的水下目标跟踪新方法,应用于无人机系统(UASNs)
《Information Fusion》:A novel underwater target tracking method in UASNs via collaborative deep reinforcement learning
【字体:
大
中
小
】
时间:2025年10月11日
来源:Information Fusion 15.5
编辑推荐:
水下声学传感器网络目标跟踪中,现有方法存在环境依赖调度、预定义相关模型和数据融合与调度孤立优化等问题。本文提出双智能体协同的深度强化学习(CDRL)框架,通过联合优化传感器调度与多源数据融合策略,结合模型无关的模拟数据方法,在动态水下环境中实现能效提升≥15%。
现代水下声学传感器网络(Underwater Acoustic Sensor Networks, UASNs)在海洋监视等关键领域发挥着重要作用,然而其在资源受限条件下面临双重挑战:一方面,需要实现节能的传感器调度,另一方面则要进行具有相关性感知的数据融合,以支持对水下目标的高效跟踪。目前,基于UASNs的目标跟踪方法存在诸多局限,例如依赖环境特定的调度策略,缺乏适应性;多传感器融合过程中通常采用预定义的相关性模型,难以应对复杂且随时间变化的水下环境;同时,调度和数据融合等本质上相互关联的任务往往被独立优化,导致整体性能受限。为了克服这些限制,本文提出了一种基于合作深度强化学习(Cooperative Deep Reinforcement Learning, CDRL)的框架,通过协调策略设计实现任务的联合优化。该框架包含两个关键代理:调度代理负责在动态条件下选择节能的感知平台,而融合代理则采用无模型策略,避免对精确相关性模型的依赖。两个代理均在多智能体协调架构中使用近端策略优化(Proximal Policy Optimization, PPO)算法进行训练,从而实现跨任务的协作决策。此外,引入了一种模拟数据方法,以减少对准确地面真实数据的依赖,提高系统对非合作目标的鲁棒性。数值模拟和实际实验表明,所提出的框架在能源效率方面比传统方法提升了至少15%,展现出显著的优势。
UASNs作为海洋监视的重要基础设施,已广泛应用于海洋资源勘探、水下目标监测等多领域。其核心能力之一在于实现多节点的自组织协调,从而获取和处理目标信息。因此,多传感器信息融合技术成为UASNs目标跟踪中的关键技术,吸引了大量研究者的关注。当前的研究主要集中在分布式融合方法上,这些方法在多种场景中表现出良好的效果。例如,Yan等人通过融合主动和被动测量,结合卡方检验和混合贝叶斯融合算法,提高了非合作目标检测的准确性,并减少了通信负载。而Zhao等人则提出了一种适用于资源受限环境的节能水下目标跟踪方法,特别适用于仅方位角观测的场景。Tang等人则探索了基于随机节点通信方案的UASNs用于目标跟踪的可行性。尽管这些方法在一定程度上推动了水下目标跟踪技术的发展,但它们仍然存在关键的局限性,如对预定义相关性模型的依赖,这些模型往往无法准确捕捉水下环境中传感器之间的复杂且动态变化的关系,且缺乏对声学传播条件突变的适应能力。
与此同时,能量感知的传感器调度技术在实现可持续的UASNs目标跟踪中也显得尤为重要。由于水下传感器通常依赖电池供电,且在深海环境中无法轻易更换电池,这使得能量管理成为一项严峻挑战。过度激活传感器或频繁的数据传输会迅速消耗网络的能量,因此,在保证跟踪精度的同时实现能源效率的优化成为研究重点。针对这一问题,已有多种调度策略被提出,如基于运动预测的协同跟踪方案、利用Fisher信息和遗传算法进行优化的节点调度方法,以及适用于非合作目标的基于阈值的节点选择、节能唤醒/休眠调度和自适应采样间隔等方法。此外,一些先进的方案,如基于概率状态的控制和反馈驱动的分布式跟踪,致力于在能源消耗与跟踪精度之间取得平衡。然而,这些方法大多依赖于特定的环境假设,对动态行为的适应能力有限,导致系统性能未能达到最优。
综上所述,当前基于UASNs的目标跟踪方法在融合与调度方面均存在根本性限制。一方面,它们依赖于预定义模型,这限制了其适应能力;另一方面,它们在处理本质上相互关联的任务时往往采用孤立的优化策略,导致整体性能受限。因此,要解决这一问题,必须采用一种能够学习协调策略、无需依赖准确环境模型的方法。深度强化学习(Deep Reinforcement Learning, DRL)正具备这样的潜力,其无模型的特性确保了系统的适应性,而其在多智能体系统中的扩展则使得联合优化成为可能。近年来,DRL在水下目标跟踪中的应用主要集中在对移动平台如自主水下航行器(Autonomous Underwater Vehicles, AUVs)的控制上。早期的研究已经验证了强化学习在单机器人、仅距离观测的跟踪任务中的可行性。在此基础上,多智能体强化学习(Multi-Agent Reinforcement Learning, MARL)被用于协调AUV团队,以解决部分可观测环境下的协同搜索问题。一些研究还开发了具有分层结构的先进变体,以应对水下群体场景中的多目标跟踪挑战。此外,一些创新性的研究关注于系统架构的优化,如利用软件定义的多智能体强化学习(Software-Defined MARL, SD-MARL)提升跟踪效率,或应用MARL到其他协同水下任务如管道检测中。然而,这些研究主要集中在基于车辆级控制的目标跟踪方法上,而如何通过联合节点调度和多传感器融合优化传感器网络内部操作的问题则尚未得到充分探索。
在UASNs中,DRL已被广泛应用于通信领域,如MAC调度和能量感知路由,以应对水下通信链路的不可靠性,并优化路由协议。然而,基于DRL的水下目标跟踪方法仍较为有限,仅有少数研究尝试将DRL应用于此类任务。其中,[22]首次提出了一种基于强化学习的无模型可扩展节点调度方法,实现了复杂水下环境下的节能调度。随后,Zheng等人提出了一种基于D3QN的端到端高能效调度框架,进一步提升了调度策略的适应性和效率。然而,这些调度方法仍然依赖于传统的、非自适应的数据融合算法,无法实现调度与融合任务之间的真正联合优化,从而导致系统性能受限。因此,本文提出的关键问题在于:是否可以采用多智能体强化学习(MARL)方法,通过无需假设相关性先验条件的方式,同时学习调度和融合策略,以实现对水下目标跟踪的优化,并在能源消耗与跟踪精度之间取得平衡。
为此,本文提出了一种基于合作深度强化学习(CDRL)的水下目标跟踪框架,旨在通过协调策略优化解决上述问题。该框架将调度与融合任务整合为一个统一的联合优化问题,并基于马尔可夫决策过程(Markov Decision Process, MDP)进行建模。在该框架中,我们引入了两个专门化的智能体:调度智能体负责在动态条件下选择节能的感知节点,而融合智能体则采用无模型策略,避免对预定义相关性模型的依赖。这两个智能体在多智能体协调架构中通过MAPPO(Multi-Agent Proximal Policy Optimization)进行协同训练,采用集中训练与分散执行(Centralized Training with Decentralized Execution, CTDE)的范式,以促进跨任务的协作决策。此外,所提出的框架还采用了一种模拟数据方法,以减少对准确地面真实数据的依赖,从而提高系统对非合作目标的鲁棒性。通过这种协同设计,该框架实现了调度与融合任务的真正联合优化,为水下目标跟踪提供了一种新的解决方案。
本文的贡献可以归纳为以下三个方面:首先,我们提出了一种新的双智能体协同机制,用于水下目标跟踪。该机制包括一个调度智能体,它能够根据动态条件灵活选择节能的感知节点;同时,一个融合智能体能够采用无模型策略,实现多传感器信息的集成,而不依赖于预定义的相关性模型。其次,我们设计了一种基于CDRL的水下目标跟踪框架,该框架通过MAPPO将调度与融合任务进行整合,从而实现了协调策略优化,解决了传统方法中任务解耦所带来的性能瓶颈,有效提升了系统的整体性能。第三,我们引入了一种基于模拟数据的奖励机制,使得DRL智能体能够直接从传感器测量数据中学习有效的策略,而无需依赖目标的准确地面真实数据,从而增强了系统的自主性和适应性。
为了验证所提出方法的有效性,本文在第四部分进行了详细的实验设计与结果分析。实验涵盖了多种经典和先进的水下目标跟踪算法,并通过数值模拟和实际测试来评估所提出框架的性能。在实验设置中,我们考虑了五种不同的跟踪方法,包括基于动态规划(Dynamic Programming, DP)的跟踪、基于DRL的跟踪、基于MARL的跟踪以及其他传统方法。通过对比实验结果,我们发现所提出的CDRL框架在能源效率方面表现出显著的优势,其性能在多个指标上均优于现有方法。此外,实验还验证了该框架在处理非合作目标时的鲁棒性,表明其在复杂水下环境中具有较强的适应能力。
在实验结果分析中,我们发现CDRL框架在调度与融合任务的联合优化方面展现出独特的优势。首先,调度智能体能够在动态条件下实时调整节点的激活状态,从而在保证跟踪精度的同时,最大限度地降低能源消耗。其次,融合智能体通过无模型策略实现了多传感器数据的高效整合,避免了对精确相关性模型的依赖,使得系统能够在未知相关性条件下依然保持较高的跟踪性能。此外,模拟数据方法的应用进一步增强了系统的自主性,使得DRL智能体能够在缺乏准确地面真实数据的情况下,依然学习到有效的策略。这种设计不仅提升了系统的适应性,还增强了其在复杂环境中的鲁棒性。
在算法分析部分,我们探讨了所提出框架的收敛性和复杂度。通过实验验证,我们发现CDRL框架在训练过程中能够快速收敛,并在多个迭代步骤后达到稳定的策略性能。同时,我们评估了该框架在不同规模和复杂度的水下环境中的计算复杂度,结果表明其在保持较高性能的同时,能够有效控制计算资源的消耗,适用于实际部署。此外,我们还分析了该框架在不同任务分配策略下的表现,发现其在协调调度和融合任务时,能够动态调整智能体之间的交互方式,从而实现更高效的协作。
在实际应用中,本文所提出的CDRL框架具有广泛的适用性。它不仅可以用于传统的水下目标跟踪任务,还能够扩展到其他需要多传感器协同工作的水下应用,如海洋监测、水下通信优化和水下环境建模等。此外,该框架的设计理念也为其他类型的传感器网络提供了新的思路,即通过智能体间的协作优化,实现对复杂任务的高效处理。在未来的研究中,我们计划进一步优化该框架的适应性,使其能够更好地应对水下环境中的不确定性因素,如水下噪声、水流扰动和传感器故障等。同时,我们还将探索该框架在更大规模水下网络中的应用,以验证其在实际部署中的可行性和有效性。
综上所述,本文提出的CDRL框架在解决水下目标跟踪中的调度与融合任务联合优化问题方面具有显著优势。通过引入双智能体机制和无模型策略,该框架不仅提升了系统的适应性,还有效克服了传统方法中对预定义模型和任务解耦的依赖。实验结果表明,该框架在能源效率和跟踪精度方面均优于现有方法,为水下目标跟踪技术的发展提供了新的方向。本文的研究成果不仅有助于提升UASNs的性能,还为其他类型的传感器网络提供了有价值的参考。未来的研究将继续围绕该框架的优化与扩展展开,以应对更复杂的水下环境和更广泛的应用需求。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号