《Journal of Mechanics》:Research on energy optimization for liquid-cooled server cooling systems based on swarm intelligence algorithms and LSTM
编辑推荐:
本文针对高功耗GPU服务器冷却能耗高、传统控制策略响应滞后的问题,通过长短期记忆网络(LSTM)构建温度预测模型,结合粒子群优化算法(PSO)动态调控冷却分配单元中风扇与水泵参数,在确保GPU温度安全限值(70°C)的前提下实现冷却系统能耗最小化。实验表明该方法可降低冷却能耗39.9%,为数据中心低碳运行提供新思路。
随着人工智能和高性能计算的迅猛发展,数据中心服务器正面临前所未有的散热挑战。当计算负载集中在图形处理器(GPU)等高功耗组件时,传统冷却控制策略难以应对波动热负荷,导致能源效率下降和系统稳定性受损。尤其在高密度GPU服务器中,冷却系统能耗可占数据中心总能耗的30-40%,成为仅次于IT设备的第二大能耗源。如何在不影响设备安全运行的前提下优化冷却系统能效,已成为数据中心运营的关键课题。
本文发表于《Journal of Mechanics》的研究聚焦于液冷服务器冷却系统的能量优化问题。研究人员通过引入深度学习技术,构建基于长短期记忆网络(LSTM)的温度预测模型,并采用粒子群优化算法(PSO)对控制参数进行全局优化,最终在实验系统中实现冷却能耗降低39.9%的显著效果。
研究主要采用三项关键技术方法:首先建立基于LSTM的温度时序预测模型,通过采集风扇占空比、水泵占空比、CDU进出口温度等7类特征参数,预测GPU1加热器1的下一个采样时刻温度;其次设计粒子群优化算法,以10秒为控制周期动态调整风扇与水泵占空比,通过目标函数平衡温度误差与能耗;最后引入惩罚项机制抑制控制参数的不协调变化,提升系统稳定性。实验数据来源于英业达公司热设计实验室的模拟服务器设备,包含8个最大功率1kW的GPU模拟加热器和6个NV Switch模拟加热器。
系统架构
研究采用外循环液气冷却系统,服务器内铜制模拟加热器最大总热负荷达10kW。冷却分配单元(CDU)通过液冷介质在服务器与CDU间进行热交换,再通过风扇将热量散至环境。实验设定高(75%)、中(50%)、低(25%)三种负载条件,以GPU1加热器1温度作为关键控制指标,目标将其稳定在70°C安全限值内。
控制器设计
研究提出LSTM-PSO控制器(LP控制器),其核心架构包含粒子初始化、LSTM温度预测、PSO参数优化等模块。控制器每10秒采集一次系统状态,通过30个粒子进行10代迭代搜索,以双目标函数(含温度误差权重WT和能耗权重WE)评估解的质量,最终输出全局最优的风扇与水泵占空比组合。
LSTM模型分析
LSTM模型采用双层结构,训练数据覆盖中高负载工况下的温度响应。模型输入特征包括GPU功率、风扇/水泵占空比、CDU进出口温度等,输出为GPU1加热器1的下一时刻温度预测值。验证集结果显示平均绝对误差(MAE)为0.5061°C,确定系数R2达0.9278,证明模型具备良好的预测精度。
PSO超参数优化
通过Pnum(全局最优超越次数)指标量化粒子群探索能力,发现当惯性权重w=0.2、学习因子c1=c2=1.4时算法性能最优。该组合在10代迭代内平均产生14次超越历史最优解的行为,显著提升控制器在低维多峰搜索空间中的收敛效率。
控制效果对比
与传统恒定流量控制(水泵固定70%占空比+PID调温)相比,LP控制器在高负载稳态运行时将风扇平均占空比降至52.7%,水泵占空比降至51.2%,CDU总功耗从基准组的534.5W降至320.7W。引入惩罚项后,风扇与水泵调整方向趋于同步,GPU温度波动显著减小,系统协调性提升。
本研究通过智能算法融合成功解决了液冷服务器冷却系统的动态控制难题。LSTM模型精准捕捉系统非线性时滞特性,PSO算法实现多目标优化求解,惩罚项机制增强控制协调性。实验证明该方法在高热负荷下可降低冷却能耗39.9%,且保持GPU温度稳定于安全阈值内。该策略为数据中心能效提升提供了兼具实时响应性与全局优化能力的技术路径,对推动绿色计算发展具有重要实践意义。