由于人工智能(AI)、高性能计算(HPC)、云服务和加密货币挖矿的需求不断增加,传统空气冷却技术已达到其实际极限。最新研究表明,现代AI加速器(尤其是H100级别的GPU)的芯片级热流密度约为800–1000 kW/m2(80–100 W/cm2),而像RTX 4090这样的消费级GPU的热流密度约为700 kW/m2(70 W/cm2)[1]。在服务器层面,冷却剂流动的不均匀分布进一步加剧了这些热挑战,因此需要优化歧管和输送架构以保持均匀的冷却效果[2]。与此同时,先进的直接液体和双相冷却方案已经实现了约2500 kW/m2(250 W/cm2)的冷却能力,为大规模部署中的下一代加速器提供了可行的解决方案[3]。基于变压器的AI模型和密集GPU集群的指数级增长进一步凸显了这些创新的紧迫性[4]。
在这种背景下,单相浸没冷却(SPIC)作为一种有前景的替代方案应运而生。通过将电子元件直接浸入导热但电绝缘的介电流体中,SPIC实现了高效的对流热传递,同时消除了对风扇和散热器的需求,尤其适用于多热源场景(例如GPU + CPU)。这些特点有助于降低电力使用效率(PUE),减少噪音,并提高系统可靠性[5,6]。此外,其简单的机械结构和与多种服务器架构的兼容性使其能够在大规模机架级和容器化数据中心中得到应用[7,8]。
最近的研究不仅证实了这些优势,也指出了存在的局限性。郑等人[5]对介电流体、架构和材料兼容性进行了全面综述,但对AI工作负载和高密度环境的关注较少。在此基础上,荣阳等人的数值分析[9]表明,通过选择合适的冷却剂和系统几何形状可以优化热性能。罗科努扎曼等人[10]和潘布迪等人[11]的实验研究表明,与空气冷却相比,SPIC具有更高的热传递效率和节能效果;而葛等人[12]和王等人[13]则比较了强制对流和自然对流,指出了热均匀性方面的权衡。在机架层面,金等人[14]报告在高功率密度条件下服务器温度降低了70%。穆尼什瓦兰等人[8]以及达拉内戈达和戈达[15]的补充研究评估了FC-40和矿物油在不同端口和流速配置下的性能。更广泛的综述进一步强调了改进芯片级热管理策略的重要性[16]。
除了推动前所未有的需求外,AI在优化热管理方面也发挥着越来越重要的作用,基于AI的预测控制已被证明可以提高液冷和混合系统的能源效率[17,18],凸显了AI与热管理之间的日益紧密的协同作用。然而,仍存在一些障碍,包括冷却剂老化、组件兼容性、维护问题以及缺乏标准化的性能基准[[19], [20], [21], [22]]。长期可靠性也是一个关键挑战,有研究指出浸没环境下的PCB热机械稳定性和封装耐用性存在风险[20,22]。最近的研究强调了对服务器组件和浸没流体进行系统评估的必要性,以确保其在延长寿命期间的运行稳定性[21,23]。此外,可持续性考虑、与二次循环的混合集成以及设施级别的准备情况对于大规模采用至关重要。
图1展示了从空气冷却到双相浸没冷却等各种热管理策略的冷却能力与标准CPU服务器、GPU集群和HPC节点的预期散热水平之间的视觉对比。数据来源于穆尼什瓦兰等人[8]、葛等人[12]、金等人[14],以及Jenkins和Robinson[1]及罗科努扎曼等人[10]预测的工作负载需求,清楚地表明虽然SPIC可以满足许多当前的高密度计算需求,但只有TPIC才能满足未来AI超级计算工作负载的热需求。然而,TPIC在实际应用中面临精确压力控制的需求和介电流体的不稳定性等挑战,这限制了其技术成熟度和大规模部署。这种对比突显了在两种浸没冷却范式中继续创新的必要性。这里的“AI工作负载”指的是目前在数据中心中部署的基于GPU和加速器的计算任务,“AI超级计算工作负载”指的是在极端热流密度下运行的未来超高性能系统。
鉴于这些驱动因素、机会和挑战,本文重点关注SPIC,它在热限制严重的空气冷却和冷板冷却方案与容量较大但部署准备不足的双相浸没系统之间占据了关键位置。本文的创新之处在于系统层面综合了SPIC的性能和局限性,结合了实验结果、数值模型和部署规模考虑,而这些在文献中往往被分开讨论。第2节介绍了SPIC的基本原理及其与AI/HPC的相关性;第3节回顾了冷却材料和系统设计;第4节探讨了其在数据中心和HPC中的应用,包括可扩展性和能源效率;第5节考察了运行可靠性和维护问题;第6节总结了热均匀性、材料兼容性和系统集成方面的主要挑战;第7节讨论了混合冷却、可持续设计、智能控制和标准化。总体而言,这些章节为推动SPIC在数据中心、HPC和AI密集型环境中的应用提供了框架。