
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于模块化神经网络与强化学习的电梯调度系统优化研究
《Journal of Computational Science》:A demonstration on the construction of modular neural network using elevator system that operates based on reinforcement learning
【字体: 大 中 小 】 时间:2025年07月28日 来源:Journal of Computational Science 3.1
编辑推荐:
研究人员针对传统电梯调度算法效率不足和神经网络"黑箱"问题,创新性地构建了融合领域知识的模块化神经网络架构。通过强化学习(Q-learning)训练,该系统在乘客运输时间优化方面显著优于标准电梯算法,并实现了功能模块的自发涌现,为可解释AI(Gray-box模型)提供了新范式。
在现代高层建筑中,电梯调度系统如同城市的"垂直交通枢纽",其效率直接影响数百万人的日常出行。传统基于启发式规则(如分区算法、高峰调度)的电梯控制系统虽具可解释性,但难以动态优化乘客等待时间。与此同时,尽管强化学习(Reinforcement Learning)在电梯调度中展现出优越性能,传统神经网络(NN)的"黑箱"特性使其难以获得关键应用场景所需的可解释性。这种矛盾催生了对"灰箱"(Gray-box)模型的迫切需求——既能保持神经网络的学习能力,又能通过结构设计实现功能透明化。
南洋理工大学(Nanyang Technological University)的研究团队在《Journal of Computational Science》发表的研究中,开创性地将模块化神经网络架构应用于电梯调度系统。通过精心设计具有特定激活函数的神经元模块,研究人员构建了一个能自主优化乘客运输时间的智能系统。该系统不仅性能超越传统电梯算法,更在训练过程中自发形成了与领域知识对应的功能模块,实现了神经网络可解释性的重大突破。
研究采用三项核心技术:1) 基于Q-learning的强化学习框架,通过状态-动作值函数(Q(S,a))迭代优化决策;2) 模块化神经网络设计,使用线性、平方和clip-at-maximum等特定激活函数构建功能单元;3) 创新奖励机制,将乘客等待时间(nτ)转化为可通过网络层计算的数学形式(1/4[(n+τ)2-(n-τ)2])。
【The elevator system】
建立L层建筑的电梯强化学习模型,定义2L-2种可能动作。环境状态包含乘客分布、电梯位置等变量,奖励函数惩罚无效动作和等待时间。
【Q-Learning with a neural network】
采用神经网络逼近Q值函数,创新性地将即时奖励r分解为服务需求惩罚和等待时间惩罚,通过时间折扣因子γ平衡短期与长期收益。
【A modular neural network architecture】
构建包含线性层(提取乘客数n和时间τ)、平方层(计算nτ)和逻辑判断层(clip-at-maximum处理接送需求)的模块化网络。各模块权重通过训练自发收敛到理论预期值,验证了架构设计的合理性。
【Performance comparison】
相比传统电梯算法(遵循"当前方向优先"规则),模块化神经网络平均减少23%的乘客运输时间。更关键的是,网络权重模式清晰反映出接送决策、时间计算等预期功能。
【Interpretability analysis】
通过三种途径验证可解释性:1) 模块化结构引导神经元执行预定计算;2) 网络准确模拟黑盒预测器行为;3) 权重模式提供领域相关洞察(如接送需求注意力机制)。
这项研究实现了神经网络可解释性领域的双重突破:技术上,证明了模块化设计能使神经网络自发形成符合领域知识的功能结构;应用上,为电梯调度等实时决策系统提供了性能与透明度兼备的解决方案。特别值得注意的是,该方法具有"即插即用"特性,其模块化架构可迁移至其他优化问题。研究结果对医疗诊断、自动驾驶等高风险领域的AI应用具有重要启示——通过精心设计的网络结构,我们既能保持机器学习优势,又能获得人类可理解的决策依据。
生物通微信公众号