
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度神经网络的非线性严格反馈系统在线终身最优轨迹跟踪控制
【字体: 大 中 小 】 时间:2025年07月07日 来源:Neural Networks 6.0
编辑推荐:
为解决非线性严格反馈系统在不确定动态下的最优轨迹跟踪难题,研究人员提出了一种结合积分强化学习(IRL)、动态表面控制(DSC)和深度神经网络(DNN)的创新方法。通过在线奇异值分解(SVD)技术更新演员-评论家网络权重,并引入终身学习(LL)机制缓解灾难性遗忘,在移动机器人实验中实现76%的成本降低。该研究为复杂工业系统的自适应控制提供了新范式。
在工业自动化和机器人控制领域,非线性严格反馈系统的实时最优控制一直是极具挑战性的课题。传统方法需要求解难以解析的Hamilton-Jacobi-Bellman(HJB)方程,且对系统动态的先验知识要求严格。更棘手的是,当系统需要在多任务场景下持续学习时,神经网络常遭遇"学新忘旧"的灾难性遗忘现象。这些瓶颈严重制约了智能控制系统在复杂环境中的应用效能。
美国密苏里科技大学的研究团队在《Neural Networks》发表的研究中,开创性地将深度神经网络(DNN)与积分强化学习(IRL)相结合,开发出适用于严格反馈系统的终身学习控制框架。该研究通过三个关键技术突破:首先采用动态表面控制(DSC)重构反推设计中的成本函数,有效解决微分爆炸问题;其次设计基于在线奇异值分解(SVD)的权重更新法则,利用控制输入误差和Bellman误差分别优化演员-评论家网络;最后引入终身学习机制,通过持续整合历史任务数据来保持网络稳定性。这些创新使系统能在完全未知动态条件下实现持续优化。
在方法学层面,研究首先建立了严格反馈系统的误差动力学模型,将轨迹跟踪问题转化为级联子系统的优化控制。每个反推步骤中,通过DSC技术生成滤波误差信号替代传统虚拟控制量的导数计算。针对DNN训练,提出创新的在线SVD算法:对激活函数梯度矩阵进行实时分解,据此推导出基于控制输入误差的演员网络更新律和基于Bellman残差的评论家网络更新律。为应对多任务场景,设计双重误差驱动的终身学习策略,其中Bellman误差用于稳定评论家网络的价值函数逼近,控制误差则保障演员网络的策略连续性。
移动机器人验证实验展现了显著优势:相比现有方法,新框架使跟踪总成本降低76%。特别值得注意的是,在切换不同参考轨迹的多任务测试中,终身学习机制成功维持了92%的历史任务性能,而传统方法会出现超过40%的性能衰退。Lyapunov稳定性分析证明,所有信号均实现一致最终有界(UUB),且神经网络权重保持稳定。
这项研究的突破性体现在四个维度:一是首次将深度终身学习引入严格反馈系统控制,解决了传统方法在任务切换时的性能断崖问题;二是开发的在线SVD技术为深度强化学习的实时训练提供了新工具;三是理论层面建立了包含DNN近似误差的闭环稳定性证明框架;四是为工业系统的持续自主进化提供了可行路径。美国海军研究办公室和陆军研究实验室的资助支持,也反映出该成果在无人系统领域的重大应用前景。未来,该方法可扩展至柔性机械臂控制、智能电网调度等需要长期自主运行的复杂系统,推动自适应控制技术向更高阶的智能化迈进。
生物通微信公众号
知名企业招聘