EVA-S3PC:一种高效、可验证、精确且安全的矩阵乘法协议实现方法及其在回归分析中的应用
《Information Fusion》:EVA-S3PC: Efficient, verifiable, accurate secure matrix multiplication protocol assembly and its application in regression
【字体:
大
中
小
】
时间:2025年10月11日
来源:Information Fusion 15.5
编辑推荐:
现代水下声学传感器网络(UASNs)在目标跟踪中面临能量高效调度与关联感知数据融合的双重挑战,传统方法存在环境依赖性强、预设关联模型不适用及任务解耦导致的性能瓶颈。本文提出基于合作深度强化学习(CDRL)的框架,通过联合优化调度与融合任务,设计双智能体协同机制:调度智能体动态选择高效传感器节点,融合智能体采用无模型策略实现数据关联,二者在MAPPO框架下通过集中训练与分散执行实现全局策略协作,并引入伪数据方法消除对真实目标轨迹的依赖。实验表明该框架较传统方法节能至少15%。
现代水下声学传感器网络(UASNs)作为海洋监测的重要基础设施,正面临双重挑战:在资源受限条件下实现节能的传感器调度,以及在目标跟踪过程中进行具备相关性的数据融合。目前,基于UASNs的目标跟踪方法存在一些关键问题,包括环境依赖的调度策略缺乏适应性、依赖于预定义的相关性模型进行多传感器融合,以及对本质上相互关联的任务进行独立优化。这些问题导致了传统方法在动态水下环境中难以达到最优性能。为了解决这些挑战,本文提出了一种基于合作深度强化学习(CDRL)的框架,通过协调的策略设计实现任务的联合优化。该框架包含一个调度代理和一个融合代理,调度代理能够在动态条件下自适应地选择节能的感知平台,而融合代理则采用无模型策略,以减少对精确相关性模型的依赖。两个代理均在配备全局评论家的多代理协调架构中使用近端策略优化(PPO)进行训练,从而实现跨任务的协同决策。此外,引入了模拟数据方法以减少对准确地面真值的依赖,增强了系统对非合作目标的鲁棒性。数值仿真和实际实验结果表明,所提出的框架在能量效率方面显著优于传统方法,达到了不少于15%的提升。
UASNs在海洋资源勘探、水下监视等广泛领域中发挥着重要作用。其在目标跟踪中的关键能力在于多水下节点的自组织协调,以获取和处理目标信息。因此,多传感器信息融合已成为UASNs目标跟踪的核心技术,受到广泛关注。当前的研究主要集中在分布式融合方法上,这些方法在各种场景中表现出良好的效果。例如,Yan等人通过融合主动和被动测量,使用卡方检验进行局部决策,并结合混合贝叶斯融合算法,在双层多组架构中提升了非合作目标检测的准确性,同时减少了通信负载。Zhao等人则提出了一种适用于仅测距场景的节能水下目标跟踪方法,适用于资源受限的水下传感器网络。Tang等人探索了基于随机节点通信方案的UASNs用于目标跟踪。尽管取得了这些进展,现有融合方法仍然面临关键限制,包括依赖预定义的相关性模型,这些模型往往无法捕捉动态水下环境中传感器之间的复杂和时变关系,以及对声学传播条件的突变缺乏适应性。
除了多传感器融合,节能的传感器调度对于可持续的UASNs目标跟踪也变得至关重要。由于水下传感器依赖电池供电,且在深海环境中无法进行充电,因此存在严重的能源限制。过度激活或频繁的数据传输会迅速消耗网络能源,使得跟踪精度与能源效率的联合优化成为关键。节点调度通过在空间和时间上管理传感器的激活,以实现性能与能源消耗之间的最优平衡。近年来,许多基于UASNs的水下目标跟踪传感器调度方法已被开发出来。在合作目标跟踪方面,有研究提出了基于运动预测、最小刚图策略和占空比技术的通用自主水下航行器(AUV)跟踪方案。Tian和Zhang则利用费舍尔信息和遗传算法进行最优节点调度。在非合作目标跟踪方面,研究者探索了基于阈值的节点选择、节能唤醒/睡眠调度和自适应采样间隔等方法。先进的方案如基于概率状态的控制和反馈驱动的分布式跟踪则专注于平衡能源与精度。Han等人展示了基于动态聚类方法的被动跟踪的可扩展性,而另一项研究则结合了互信息和主动节点选择以提高非合作目标跟踪的效率。然而,当前的方法受限于环境假设,对动态行为的适应性不足,导致系统性能不理想。
综上所述,现有的水下目标跟踪方法在融合和调度方面存在共同的根本性问题。它们依赖预定义的模型,限制了适应性,同时对本质上相互关联的任务进行独立处理,导致性能不理想。为了克服这一挑战,需要采用一种无需依赖准确环境模型的学习方法,以掌握协调策略。深度强化学习(DRL)具备这一能力,因其无模型的特性确保了适应性,且其在多代理系统中的扩展使得传统方法无法实现的联合优化成为可能。
在水下目标跟踪领域,DRL的应用主要集中于控制移动平台,如自主水下航行器(AUV)。基础研究已经证明了在真实环境中使用强化学习进行单机器人、仅测距跟踪的可行性。在此基础上,多代理强化学习(MARL)被用于协调AUV团队。研究者应用了如多代理深度确定性策略梯度(MADDPG)等算法,以解决部分可观测环境中合作搜索问题,并开发了具有分层架构的先进变体,以应对更复杂的多目标跟踪挑战。其他创新则聚焦于系统架构,如利用软件定义的MARL(SD-MARL)以提高跟踪效率,或应用MARL于其他合作水下任务,如管道检测。与这些基于车辆级控制的目标跟踪研究不同,本文关注的是通过联合节点调度和多传感器融合优化水下传感器网络内部操作的问题,这一方面尚未得到充分探索。
在UASNs中,DRL已被广泛应用于通信领域,如媒体访问控制(MAC)调度和节能路由,以管理链路的不可靠性,并优化路由协议。然而,基于UASNs的水下目标跟踪应用相对较少,[22]是首个提出基于强化学习的无模型可扩展节点调度方法的研究,实现了在复杂水下环境中的节能调度。在此基础上,Zheng等人提出了基于D3QN的端到端高能效调度框架,实现了适应性和节能调度。然而,这些以调度为核心的方法仍然依赖传统的、非适应性融合算法,无法实现调度和融合任务的真正联合优化,从而造成了系统性能的根本性瓶颈。因此,本文的核心问题在于:是否可以通过多代理强化学习(MARL)方法,学习出既能够调度又能够融合的策略,从而实现水下目标跟踪,而无需假设相关性先验,并在处理过程中明确管理能源与精度之间的权衡。
为了解决这一问题,本文提出了一种基于合作深度强化学习(CDRL)的目标跟踪方法,通过协调的策略优化来解决上述问题。该方法将调度和融合任务作为单一的联合优化问题进行建模,基于马尔可夫决策过程(MDP)进行处理。通过双代理合作机制,该方法实现了两个专门化的代理:一个调度代理能够在动态条件下自适应地选择节能的感知节点,一个融合代理则采用无模型策略,以避免对预定义的相关性模型的依赖。这两个代理在配备全局评论家的多代理协调架构中使用近端策略优化(PPO)进行联合训练,从而实现跨任务的协同决策。PPO算法因其稳定性和在样本效率与有效策略优化之间的平衡而被选用。为了处理非合作目标,该框架采用了模拟数据方法,以消除对地面真值的依赖。这一方法结合协同代理设计,使得整个学习过程能够实现调度和融合任务的真正联合优化。
本文的主要贡献可以总结为以下几点:
1. 提出了一种新颖的双代理合作机制,用于水下目标跟踪。其中,调度代理能够在动态条件下自适应地选择节能的感知节点,而融合代理则采用无模型策略,避免对预定义的相关性模型的依赖。
2. 提出了一种基于合作深度强化学习的水下目标跟踪框架,该框架通过MAPPO整合调度和融合任务,实现了协同策略优化,解决了传统方法中的分离优化问题,从而提升了系统性能。
3. 引入了一种基于模拟数据的奖励设计,使得DRL代理能够直接从传感器测量中学习有效的策略,无需依赖目标的地面真值。
本文的其余部分结构如下。第2节介绍了水下目标跟踪的系统模型及所面临的问题。第3节提出了基于CDRL的目标跟踪方法。第4节展示了设计和实验结果。最后,第5节总结了研究结论并提出了未来的研究方向。本文的结构安排为:第2节概述了系统模型和水下目标跟踪中的挑战。第3节介绍了基于CDRL的目标跟踪方法。第4节详细说明了实验设计和结果。第5节则总结了研究结论,并提出了未来的研究方向。
在问题建模方面,本文从四个主要方面入手:UASNs的架构、跟踪框架、节能的传感器调度协议以及在未知相关性下的多传感器融合协议。首先,UASNs的架构决定了传感器节点的部署方式,包括节点间的通信机制、能量管理策略以及数据处理流程。其次,跟踪框架是整个系统的核心,它需要在动态环境中协调多个传感器节点,以实现对目标的精确定位和跟踪。第三,节能的传感器调度协议是实现系统可持续运行的关键,它需要在有限的能源条件下,优化传感器的激活频率和数据传输策略,以延长网络的使用寿命。第四,多传感器融合协议则负责整合来自不同传感器的数据,以提高跟踪的准确性和鲁棒性。这些方面相互关联,共同构成了水下目标跟踪的复杂系统。
本文提出的CDRL框架旨在解决上述问题,通过协调的策略设计实现调度和融合任务的联合优化。该框架将调度和融合任务作为单一的联合优化问题进行建模,基于马尔可夫决策过程(MDP)进行处理。通过双代理合作机制,该方法实现了两个专门化的代理:一个调度代理能够在动态条件下自适应地选择节能的感知节点,一个融合代理则采用无模型策略,以避免对预定义的相关性模型的依赖。这两个代理在配备全局评论家的多代理协调架构中使用近端策略优化(PPO)进行联合训练,从而实现跨任务的协同决策。PPO算法因其稳定性和在样本效率与有效策略优化之间的平衡而被选用。为了处理非合作目标,该框架采用了模拟数据方法,以消除对地面真值的依赖。这一方法结合协同代理设计,使得整个学习过程能够实现调度和融合任务的真正联合优化。
本文的实验部分旨在评估所提出方法在水下目标跟踪中的性能,并与几种现有的目标跟踪算法进行比较。实验考虑了五种不同的跟踪方法,包括基于动态规划(DP)的跟踪、基于深度强化学习(DRL)的跟踪、基于多代理强化学习(MARL)的跟踪、基于传统融合方法的跟踪以及基于模拟数据的跟踪。这些方法分别代表了当前水下目标跟踪的不同研究方向和实现方式。通过数值仿真和实际实验,本文验证了所提出方法在多个指标上的优越性,包括能量效率、跟踪精度和系统鲁棒性。实验结果表明,所提出的方法在复杂水下环境中能够有效适应动态变化,同时保持较高的跟踪精度和较低的能量消耗。
在实验设置中,本文采用了多种参数配置以评估所提出方法的性能。首先,考虑了不同规模的UASNs网络,包括节点数量、节点分布以及通信拓扑结构。其次,模拟了不同类型的水下目标,包括合作目标和非合作目标,以测试系统在不同场景下的适应性。第三,考虑了不同的环境条件,如声速变化、水下噪声干扰以及水下地形的复杂性,以评估系统在不同环境下的鲁棒性。第四,采用了不同的数据融合策略,包括基于贝叶斯融合、基于卡尔曼滤波以及基于神经网络的融合方法,以测试系统在不同融合方式下的性能。第五,考虑了不同的传感器调度策略,包括基于阈值的调度、基于概率状态的调度以及基于反馈驱动的调度,以评估系统在不同调度方式下的适应性。
实验结果表明,所提出的方法在多个方面均优于传统方法。首先,在能量效率方面,所提出的方法能够显著减少传感器的激活频率和数据传输次数,从而延长网络的使用寿命。其次,在跟踪精度方面,所提出的方法能够更准确地估计目标的位置和运动轨迹,即使在存在噪声干扰和环境变化的情况下也能保持较高的精度。第三,在系统鲁棒性方面,所提出的方法能够有效应对非合作目标的挑战,即使在没有地面真值的情况下也能实现较高的跟踪性能。第四,在适应性方面,所提出的方法能够根据环境变化动态调整调度和融合策略,从而实现更高的灵活性和稳定性。第五,在融合效果方面,所提出的方法能够更有效地整合多传感器数据,即使在存在未知相关性的情况下也能保持较高的融合质量。
在算法设计方面,本文采用了近端策略优化(PPO)作为训练算法,其稳定性和在样本效率与有效策略优化之间的平衡使得该方法在复杂环境中能够实现良好的学习效果。同时,本文采用了多代理协调架构,使得多个代理能够在统一的策略框架下进行协同决策。这种架构不仅提高了系统的整体性能,还增强了代理之间的互动性和适应性。此外,本文引入了模拟数据方法,以减少对准确地面真值的依赖,使得系统在没有真实数据的情况下也能实现有效的训练和优化。这些方法的结合使得所提出的CDRL框架在水下目标跟踪中具有更强的适应性和鲁棒性。
在实验分析中,本文对所提出方法的收敛性和复杂性进行了评估。首先,通过数值仿真验证了所提出方法在不同环境下的收敛性,结果表明该方法能够在有限的训练时间内达到稳定的策略性能。其次,通过分析算法的计算复杂性,发现所提出方法在保持较高性能的同时,能够有效降低计算成本,使得其在实际应用中具有更好的可行性。此外,本文还对不同参数配置下的实验结果进行了对比分析,以评估所提出方法在不同场景下的适用性。结果表明,所提出的方法在不同参数配置下均表现出良好的性能,能够适应不同的水下环境和目标类型。
在应用前景方面,本文提出的方法具有广泛的应用潜力。首先,在海洋资源勘探中,该方法能够提高传感器网络的运行效率,使得在有限的能源条件下能够实现更长时间的监测。其次,在水下监视中,该方法能够有效应对非合作目标的挑战,提高系统的鲁棒性和准确性。第三,在环境监测中,该方法能够适应不同的环境条件,提高系统的适应性和稳定性。第四,在军事应用中,该方法能够提高水下目标的跟踪能力,为水下作战提供支持。第五,在科学研究中,该方法能够为水下目标跟踪提供新的研究思路和技术手段,推动相关领域的技术发展。
综上所述,本文提出了一种基于合作深度强化学习(CDRL)的水下目标跟踪方法,通过协调的策略设计实现了调度和融合任务的联合优化。该方法不仅提高了系统的能量效率和跟踪精度,还增强了系统的鲁棒性和适应性。通过数值仿真和实际实验,本文验证了所提出方法在多个指标上的优越性,为水下目标跟踪提供了新的解决方案。本文的研究成果为未来水下传感器网络的发展提供了重要的理论支持和技术参考,具有广泛的应用前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号