基于可重构光域广域网的Geo-DML自适应全局参数同步优化策略

【字体: 时间:2025年07月21日 来源:Neurocomputing 5.5

编辑推荐:

  针对地理分布式机器学习(Geo-DML)在广域网(WAN)带宽异构性下的性能瓶颈,研究人员提出AdaptivePS方案,通过动态选择全局聚合节点、重构光网络拓扑及建立数学优化模型,实现参数同步时间最高降低。该研究为SDN架构下的分布式训练提供了拓扑感知新范式。

  

在人工智能技术席卷全球的当下,地理分布式机器学习(Geo-DML)已成为处理海量跨域数据的利器。然而鲜为人知的是,当训练任务从局域网(LAN)扩展到广域网(WAN)时,带宽的稀缺性和异构性会像无形的枷锁,严重制约着模型迭代效率。特别是在使用GPU等加速硬件后,通信开销反而成为制约训练速度的主要瓶颈。更棘手的是,传统优化方案往往只关注参数服务器(PS)架构的调度策略,却忽视了底层网络拓扑这一"隐形变量"的可塑性。

电子科技大学的研究团队在《Neurocomputing》发表的这项研究,揭示了现代光网络中被长期忽视的"变形"能力——通过可重构光分插复用器(ROADM),广域网拓扑可以像乐高积木般动态重组。研究人员创新性地将Geo-DML的全局参数同步(GPS)分解为两阶段数学模型,提出AdaptivePS方案:首先通过松弛线性规划确定最优聚合节点部署,再采用确定性舍入算法完成波长分配与路径规划。这种"拓扑重构+智能调度"的双轮驱动策略,使得在Google B4等真实网络拓扑中,全局通信时间(GCT)较现有方案最高降低

关键技术包括:1) 建立考虑节点两跳带宽的混合整数规划模型;2) 开发基于松弛-舍入的近似算法;3) 在SDN控制器上实现波长动态配置;4) 采用分层聚合架构降低网络负载。

【背景与动机】
研究指出,现有工作如RoWAN仅优化传统流量,而RAPIER未考虑参数聚合的数学特性。通过分析发现:参数平均操作具有拓扑无关性,任意节点均可作为聚合点,这为拓扑重构提供了理论依据。

【问题建模】
将GPS分为聚合节点选择和数据同步两阶段:前者建模为带容量约束的设施选址问题,后者转化为多商品流优化。创新性引入"虚拟波长"概念,将离散的光通道分配转化为连续变量。

【算法设计】
AdaptivePS采用三阶段求解:先用线性规划松弛获得分数解,再通过改进的阈值舍入确定聚合节点,最后用贪婪算法完成波长分配。理论证明该方案具有1.58倍近似比。

【性能验证】
在GEANT等拓扑中,当模型尺寸达50GB时:1) 动态聚合节点选择减少23%跨域流量;2) 波长重构使关键路径带宽提升4.8倍;3) 相比静态拓扑方案,迭代周期缩短31%。

这项研究的突破性在于首次将光网络的物理层重构能力与机器学习特性深度耦合。不仅证实了"网络即计算"的新范式,更为未来智能网络架构设计指明方向——当ROADM遇见SDN,冰冷的物理光纤将焕发出适配AI训练的生命力。团队透露,下一步将探索分层参数块分配策略,进一步释放光网络在联邦学习等场景的潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号