
-
生物通官微
陪你抓住生命科技
跳动的脉搏
异构网络中多类型均值场强化学习框架MTMF-Q的资源优化分配研究
【字体: 大 中 小 】 时间:2025年06月11日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对超密集异构D2D网络中资源分配的高维动态优化难题,圣彼得堡国立大学Qiushi Sun团队创新性地将均值场类型博弈(MFTG)理论与多智能体强化学习(MARL)结合,提出多类型均值场双深度Q网络(MTMF-Q)算法。该框架突破传统均值场强化学习对同质化系统的限制,通过建模多类型设备交互的均值场效应,显著提升系统总速率和可扩展性,为5G/B5G超密集网络实时控制提供新范式。
随着5G/6G时代移动数据量爆发式增长,超密集异构网络中的动态资源分配成为提升服务质量(QoS)的核心挑战。传统优化方法在应对大规模设备到设备(D2D)通信场景时,面临解空间指数爆炸和实时性不足的困境。圣彼得堡国立大学联合研究团队在《Engineering Applications of Artificial Intelligence》发表的研究,开创性地将均值场类型博弈(MFTG)理论与多智能体强化学习(MARL)相融合,提出多类型均值场双深度Q网络(MTMF-Q)算法,为这一难题提供突破性解决方案。
研究团队采用三大关键技术:1) 构建多类型智能体交互模型,突破传统均值场强化学习对同质化系统的限制;2) 开发基于双深度Q网络(DDQN)的MTMF-Q算法框架,实现异构动作空间的联合优化;3) 建立含多种天线配置的MISO(多输入单输出)系统仿真环境,验证算法在用户密度、网络规模等参数下的可扩展性。
【Related works】
现有研究多聚焦同质化场景,而实际D2D网络中设备具有异构属性。传统加权最小均方误差(WMMSE)等方法因依赖精确信道状态信息(CSI)和迭代计算,难以满足动态需求。
【Problem description】
构建含多类型MISO链路的D2D下行网络模型,各链路发射天线数可变。系统目标函数为最大化总速率,约束条件包括功率预算和干扰阈值,形成NP难的非凸优化问题。
【MARL model for resource allocation problem】
将问题建模为部分可观测马尔可夫决策过程(POMDP),通过MTMF-Q算法使智能体在仅观测局部状态条件下,学习最优波束成形向量和发射功率策略。理论证明该框架在异构系统中的收敛性和最优性。
【Simulation experiments】
与均值场Q学习(MF-Q)、DDQN和随机策略对比显示:MTMF-Q在104
量级设备规模下,总速率提升23.7%,训练效率提高3.1倍,且随网络密度增加保持稳定性能。
【Discussion】
研究突破传统MARL的"智能体数量平方级交互"瓶颈,通过均值场近似将计算复杂度降至线性。实际部署需解决信令开销和CSI获取等工程挑战。
【Conclusion】
该研究首次实现MFTG理论在异构D2D网络的MARL应用,MTMF-Q算法为超密集网络资源分配提供新范式。俄罗斯经济发展部资助项目(25-139-66879-1-0003)支持了该工作,Ovanes Petrosian为通信作者。
生物通微信公众号
知名企业招聘