一种基于深度双Q网络(deep double Q-network)的强化学习方法,用于海洋推进系统中的轴对齐控制,并结合空气弹簧振动隔离技术
《Ocean Engineering》:A deep double Q-network based reinforcement learning approach for shaft alignment control in marine propulsion systems with air spring vibration isolation
【字体:
大
中
小
】
时间:2025年10月25日
来源:Ocean Engineering 5.5
编辑推荐:
针对海洋推进系统空气弹簧振动隔离系统(ASVIS)动态环境下的轴对中控制难题,提出了一种基于安全约束深度双重Q网络(S-DDQN)的模型自由控制方法。通过理论分析和实验验证,该方法有效平衡对中误差与负载分布,无需先验系统模型,通过在线交互学习实现动态环境下的快速收敛与稳定控制,实验结果表明其控制步骤较传统方法减少30%以上,且能适应初始压力不均的复杂工况。
在现代船舶系统中,机械振动和噪声是一个不可忽视的问题,尤其在推进系统中,这些振动和噪声不仅影响船员的舒适度,还可能对船舶的辐射噪声和运行安全造成潜在威胁。为了解决这一问题,传统上采用的振动隔离技术通常会面临一个两难局面,即在减少噪声的同时,还需确保系统运行的安全性。这主要是因为当使用柔性支撑时,可能会导致轴线偏移,进而对系统造成风险。近年来,空气弹簧振动隔离系统(ASVIS)因其较低的自然频率和可调节的特性,成为了一种有效降低机械噪声并实现动态轴线调整的解决方案。
然而,大规模的ASVIS系统由于受到动态因素的影响,例如平台变形和操作变化,使得建立精确的系统模型和进行轴线控制变得复杂。因此,如何在动态环境中实现有效的控制,成为了当前研究的重点。在这一背景下,一种基于深度强化学习(DRL)的轴线控制方法被提出,旨在提升系统的适应性。该方法首先将轴线控制问题理论化,并将其转化为一个顺序决策问题,目标是在降低轴线偏移的同时优化多个空气弹簧之间的负载分配。为了应对这一挑战,研究人员设计了一种安全约束下的双深度Q网络(S-DDQN)控制器,以确保在探索过程中控制动作保持在安全操作范围内。
通过这种控制器,系统能够在实际运行中实现动态调整。与传统的控制方法相比,DRL方法的优势在于它可以通过与操作环境的交互来学习最优控制策略,从而在未知环境中保持系统的稳定性和适应性。在实验验证中,使用了一个ASVIS原型进行测试,结果表明该方法在提高控制精度和效率方面具有可行性,并且在不同条件下均能实现良好的控制效果。此外,通过环境交互,该控制器可以持续改进,以适应不断变化的系统特性。
深度强化学习方法的引入为ASVIS系统提供了一种新的控制策略。该方法的理论基础在于将轴线控制问题转化为一个顺序决策问题,其中控制目标是平衡轴线偏移和负载分配。为了实现这一目标,研究团队设计了一种安全约束下的DDQN算法,确保在探索过程中控制动作保持在安全操作范围内。该算法能够直接根据输入的系统状态信息生成最优的控制策略,而无需预先建立精确的动态模型。此外,由于ASVIS系统在运行过程中可能会受到动态扰动的影响,该方法在实际应用中展现出较强的鲁棒性和适应性。
在系统设计方面,研究团队将状态空间和动作空间进行了详细定义。状态空间包括控制目标的状态、系统的自身状态以及操作环境的状态。其中,控制目标的状态主要涉及轴线偏移,而系统的自身状态则包括空气弹簧的压力值,这些压力值对系统的刚度有直接影响。操作环境的状态则包括船舶的倾斜角、发动机转速等参数。这些状态值可以是连续变量或离散变量,但均在状态空间中以浮点数的形式存在。
动作空间的设计是基于空气弹簧的压力调整,通过控制电磁阀的开闭时间来实现压力的增减。为了确保系统的稳定性,每次调整的压力变化不应过大,否则可能导致系统不稳定。同时,为了提高算法的收敛速度,需要对动作空间进行离散化处理。在实验中,研究团队使用了8个空气弹簧,每个空气弹簧有4个控制动作,包括增加或减少压力的0.1 MPa、0.05 MPa等。通过这种方式,研究团队确保了系统的稳定性和高效性。
在奖励函数的设计上,研究团队采用了多目标优化的思路,将轴线偏移和负载分配作为优化目标。奖励函数不仅需要反映控制目标,还需要能够区分不同控制策略的优劣。在实验中,研究团队通过设置不同的容忍目标误差(TE)来评估算法的性能,结果表明该方法在不同TE要求下均能实现快速收敛,并且在TE减小(即控制精度提高)的情况下,收敛速度会相应减慢,这反映了在实现更精确的轴线控制时的复杂性。
此外,研究团队还比较了该方法与其他强化学习控制方法的性能,包括DDPG算法和无安全约束的DDQN方法。结果表明,S-DDQN方法在控制精度和效率方面均优于其他方法。DDPG算法虽然能够生成连续的控制动作,但由于其操作空间较大,导致收敛速度较慢。而无安全约束的DDQN方法虽然在某些情况下表现良好,但缺乏对安全约束的考虑,使得在实际应用中可能产生较大的不稳定性。
为了进一步验证该方法的性能,研究团队还评估了不同初始压力对算法收敛速度的影响。结果表明,无论初始压力如何设置,该方法均能实现快速且稳定的收敛。虽然初始压力对控制步骤数和累积奖励值有影响,但这种影响并非线性。由于折扣因子γ的存在,较长的控制路径会受到更重的惩罚,从而使得在初始压力为0.2 MPa的情况下,虽然需要更多的控制步骤,但累积奖励值仍与其他初始压力情况相当。
在工程实践中,该方法的引入为ASVIS系统提供了一种有效的控制策略。研究团队通过实验发现,该方法能够在不同初始压力下实现快速收敛,从而在未知环境中保持系统的稳定性。此外,该方法还能够在不同多目标系数下实现良好的控制效果,平衡负载分配和轴线控制的精度。研究团队通过调整多目标系数,发现当系数为10时,该方法在保持良好控制效果的同时,能够实现较为稳定的收敛。
在算法设计中,研究团队还对学习率进行了敏感性分析,以评估其对控制策略的影响。结果表明,学习率对收敛速度有显著影响,但对最终的控制效果影响较小。通过实验,研究团队发现较高的学习率(如0.01)能够实现较快的控制策略优化,而较低的学习率(如0.0001)则会导致收敛速度较慢,但最终的控制效果相近。因此,选择适当的学习率对于实现高效的控制策略至关重要。
综上所述,基于深度强化学习的轴线控制方法为ASVIS系统提供了一种新的解决方案。该方法不仅能够有效降低轴线偏移,还能实现负载分配的优化。通过实验验证,该方法在不同条件下均表现出良好的控制效果,为船舶推进系统提供了一种可靠且高效的控制策略。未来,研究团队将继续在实际设备上进行更多测试,以进一步优化该方法的性能,并考虑边缘设备的资源限制,结合云计算技术提升控制效果。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号