基于模块化神经网络与强化学习的电梯调度系统优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Computational Science》：A demonstration on the construction of modular neural network using elevator system that operates based on reinforcement learning

【字体：大中小】 时间：2025年07月28日 来源：Journal of Computational Science 3.1

编辑推荐：

　　研究人员针对传统电梯调度算法效率不足和神经网络"黑箱"问题，创新性地构建了融合领域知识的模块化神经网络架构。通过强化学习(Q-learning)训练，该系统在乘客运输时间优化方面显著优于标准电梯算法，并实现了功能模块的自发涌现，为可解释AI(Gray-box模型)提供了新范式。

在现代高层建筑中，电梯调度系统如同城市的"垂直交通枢纽"，其效率直接影响数百万人的日常出行。传统基于启发式规则（如分区算法、高峰调度）的电梯控制系统虽具可解释性，但难以动态优化乘客等待时间。与此同时，尽管强化学习(Reinforcement Learning)在电梯调度中展现出优越性能，传统神经网络(NN)的"黑箱"特性使其难以获得关键应用场景所需的可解释性。这种矛盾催生了对"灰箱"(Gray-box)模型的迫切需求——既能保持神经网络的学习能力，又能通过结构设计实现功能透明化。

南洋理工大学（Nanyang Technological University）的研究团队在《Journal of Computational Science》发表的研究中，开创性地将模块化神经网络架构应用于电梯调度系统。通过精心设计具有特定激活函数的神经元模块，研究人员构建了一个能自主优化乘客运输时间的智能系统。该系统不仅性能超越传统电梯算法，更在训练过程中自发形成了与领域知识对应的功能模块，实现了神经网络可解释性的重大突破。

研究采用三项核心技术：1) 基于Q-learning的强化学习框架，通过状态-动作值函数(Q(S,a))迭代优化决策；2) 模块化神经网络设计，使用线性、平方和clip-at-maximum等特定激活函数构建功能单元；3) 创新奖励机制，将乘客等待时间(nτ)转化为可通过网络层计算的数学形式(1/4[(n+τ)²-(n-τ)²])。

【The elevator system】
建立L层建筑的电梯强化学习模型，定义2L-2种可能动作。环境状态包含乘客分布、电梯位置等变量，奖励函数惩罚无效动作和等待时间。

【Q-Learning with a neural network】
采用神经网络逼近Q值函数，创新性地将即时奖励r分解为服务需求惩罚和等待时间惩罚，通过时间折扣因子γ平衡短期与长期收益。

【A modular neural network architecture】
构建包含线性层（提取乘客数n和时间τ）、平方层（计算nτ）和逻辑判断层（clip-at-maximum处理接送需求）的模块化网络。各模块权重通过训练自发收敛到理论预期值，验证了架构设计的合理性。

【Performance comparison】
相比传统电梯算法（遵循"当前方向优先"规则），模块化神经网络平均减少23%的乘客运输时间。更关键的是，网络权重模式清晰反映出接送决策、时间计算等预期功能。

【Interpretability analysis】
通过三种途径验证可解释性：1) 模块化结构引导神经元执行预定计算；2) 网络准确模拟黑盒预测器行为；3) 权重模式提供领域相关洞察（如接送需求注意力机制）。

这项研究实现了神经网络可解释性领域的双重突破：技术上，证明了模块化设计能使神经网络自发形成符合领域知识的功能结构；应用上，为电梯调度等实时决策系统提供了性能与透明度兼备的解决方案。特别值得注意的是，该方法具有"即插即用"特性，其模块化架构可迁移至其他优化问题。研究结果对医疗诊断、自动驾驶等高风险领域的AI应用具有重要启示——通过精心设计的网络结构，我们既能保持机器学习优势，又能获得人类可理解的决策依据。

联系信箱：

粤ICP备09063491号

热点排行