综述：数据中心和高性能计算（HPC）中的单相浸没冷却技术：最新进展与系统级挑战

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《RENEWABLE & SUSTAINABLE ENERGY REVIEWS》：Single-phase immersion cooling for data centers and HPC: Recent advances and system-level challenges

【字体：大中小】 时间：2026年02月13日 来源：RENEWABLE & SUSTAINABLE ENERGY REVIEWS 16.3

编辑推荐：

　　单相浸没冷却（SPIC）通过直接浸没电子组件实现高效热传递，适用于高密度AI/HPC计算场景，其技术发展涵盖冷却架构优化、智能控制（如数字孪生、强化学习）和可持续性评估（CUE/WUE/REF/LCA）。系统级验证显示SPIC在稳定性和可扩展性上具有优势，但仍面临冷却剂可靠性、系统改造成本及标准化缺失等挑战。

金本卢阿 | 王志川

台湾新竹国立阳明交通大学

摘要

单相浸没冷却（SPIC）作为一种有前景的解决方案，已被提出用于应对数据中心和高性能计算（HPC）日益增长的热量需求。本文综述了单相浸没冷却系统的最新进展，包括介电流体、冷却架构和智能控制框架等方面的讨论，重点介绍了实验验证和系统级部署情况。文中还详细探讨了介电流体的发展。常见的介电流体包括合成烃类和纳米流体增强型油，这些流体在热性能和与电子元件的兼容性方面经过了测试。在控制领域，基于预测控制、数字孪生和强化学习的模型实现了实时优化、故障预测和自适应能源管理。同时，可持续性指标（如碳使用效率（CUE）、水使用效率（WUE）、可再生能源因子（REF）和生命周期评估（LCA）扩展了评估范围，超越了传统的电力使用效率（PUE），涵盖了水足迹、碳影响和废热回收等方面。比较评估证实了SPIC在运行稳定性和可扩展性方面的优势，但也指出了冷却剂可靠性、系统改造和认证标准等方面的持续挑战。通过结合流体/热科学、智能控制和可持续性指标，本文为推动SPIC作为可持续、可扩展的数据中心冷却技术提供了全面的框架。

引言

由于人工智能（AI）、高性能计算（HPC）、云服务和加密货币挖矿的需求不断增加，传统空气冷却技术已达到其实际极限。最新研究表明，现代AI加速器（尤其是H100级别的GPU）的芯片级热流密度约为800–1000 kW/m2（80–100 W/cm2），而像RTX 4090这样的消费级GPU的热流密度约为700 kW/m2（70 W/cm2）[1]。在服务器层面，冷却剂流动的不均匀分布进一步加剧了这些热挑战，因此需要优化歧管和输送架构以保持均匀的冷却效果[2]。与此同时，先进的直接液体和双相冷却方案已经实现了约2500 kW/m2（250 W/cm2）的冷却能力，为大规模部署中的下一代加速器提供了可行的解决方案[3]。基于变压器的AI模型和密集GPU集群的指数级增长进一步凸显了这些创新的紧迫性[4]。

在这种背景下，单相浸没冷却（SPIC）作为一种有前景的替代方案应运而生。通过将电子元件直接浸入导热但电绝缘的介电流体中，SPIC实现了高效的对流热传递，同时消除了对风扇和散热器的需求，尤其适用于多热源场景（例如GPU + CPU）。这些特点有助于降低电力使用效率（PUE），减少噪音，并提高系统可靠性[5,6]。此外，其简单的机械结构和与多种服务器架构的兼容性使其能够在大规模机架级和容器化数据中心中得到应用[7,8]。

最近的研究不仅证实了这些优势，也指出了存在的局限性。郑等人[5]对介电流体、架构和材料兼容性进行了全面综述，但对AI工作负载和高密度环境的关注较少。在此基础上，荣阳等人的数值分析[9]表明，通过选择合适的冷却剂和系统几何形状可以优化热性能。罗科努扎曼等人[10]和潘布迪等人[11]的实验研究表明，与空气冷却相比，SPIC具有更高的热传递效率和节能效果；而葛等人[12]和王等人[13]则比较了强制对流和自然对流，指出了热均匀性方面的权衡。在机架层面，金等人[14]报告在高功率密度条件下服务器温度降低了70%。穆尼什瓦兰等人[8]以及达拉内戈达和戈达[15]的补充研究评估了FC-40和矿物油在不同端口和流速配置下的性能。更广泛的综述进一步强调了改进芯片级热管理策略的重要性[16]。

除了推动前所未有的需求外，AI在优化热管理方面也发挥着越来越重要的作用，基于AI的预测控制已被证明可以提高液冷和混合系统的能源效率[17,18]，凸显了AI与热管理之间的日益紧密的协同作用。然而，仍存在一些障碍，包括冷却剂老化、组件兼容性、维护问题以及缺乏标准化的性能基准[[19], [20], [21], [22]]。长期可靠性也是一个关键挑战，有研究指出浸没环境下的PCB热机械稳定性和封装耐用性存在风险[20,22]。最近的研究强调了对服务器组件和浸没流体进行系统评估的必要性，以确保其在延长寿命期间的运行稳定性[21,23]。此外，可持续性考虑、与二次循环的混合集成以及设施级别的准备情况对于大规模采用至关重要。

图1展示了从空气冷却到双相浸没冷却等各种热管理策略的冷却能力与标准CPU服务器、GPU集群和HPC节点的预期散热水平之间的视觉对比。数据来源于穆尼什瓦兰等人[8]、葛等人[12]、金等人[14]，以及Jenkins和Robinson[1]及罗科努扎曼等人[10]预测的工作负载需求，清楚地表明虽然SPIC可以满足许多当前的高密度计算需求，但只有TPIC才能满足未来AI超级计算工作负载的热需求。然而，TPIC在实际应用中面临精确压力控制的需求和介电流体的不稳定性等挑战，这限制了其技术成熟度和大规模部署。这种对比突显了在两种浸没冷却范式中继续创新的必要性。这里的“AI工作负载”指的是目前在数据中心中部署的基于GPU和加速器的计算任务，“AI超级计算工作负载”指的是在极端热流密度下运行的未来超高性能系统。

鉴于这些驱动因素、机会和挑战，本文重点关注SPIC，它在热限制严重的空气冷却和冷板冷却方案与容量较大但部署准备不足的双相浸没系统之间占据了关键位置。本文的创新之处在于系统层面综合了SPIC的性能和局限性，结合了实验结果、数值模型和部署规模考虑，而这些在文献中往往被分开讨论。第2节介绍了SPIC的基本原理及其与AI/HPC的相关性；第3节回顾了冷却材料和系统设计；第4节探讨了其在数据中心和HPC中的应用，包括可扩展性和能源效率；第5节考察了运行可靠性和维护问题；第6节总结了热均匀性、材料兼容性和系统集成方面的主要挑战；第7节讨论了混合冷却、可持续设计、智能控制和标准化。总体而言，这些章节为推动SPIC在数据中心、HPC和AI密集型环境中的应用提供了框架。

单相浸没冷却的基础知识

在讨论设计策略和系统级实现之前，有必要明确SPIC的物理工作原理和与其他方法的比较背景。本节介绍了SPIC的控制机制（2.1），并将其与传统方法和双相方法进行了对比（2.2），并强调了其在新兴高功率计算工作负载中的独特价值（2.3）。

技术发展和创新

在上述基础知识的基础上，SPIC性能的另一个关键决定因素是介电流体本身，其热物理和化学性质直接影响热传递、稳定性和可持续性。虽然本节主要关注SPIC，但也引用了一些相关冷却架构和诊断的研究，这些研究的发现可以为材料行为、流动管理、可靠性等方面提供借鉴。

在数据中心和HPC系统中的应用

SPIC已经从实验室验证阶段发展到在数据中心和高性能计算环境中的实际应用。最近的同行评审研究提供了SPIC在真实热条件和功率条件下的应用证据。

Sun等人[76]对一种专为高密度计算数据中心应用设计的单相浸没冷却单元进行了实验研究。

可靠性和维护考虑

除了热性能外，SPIC在数据中心和HPC环境中的长期部署还取决于材料兼容性、系统级可靠性以及连续浸没环境下的电气和光学信号完整性。此外，介电浸没冷却剂的电绝缘特性通过降低安装、操作和维护IT设备时的电击风险提高了安全性。

前一节强调了SPIC的优势

挑战和局限性

第5节指出了SPIC与TPIC之间的权衡，并总结了新兴的最佳实践。然而，这些评估也揭示了尚未解决的挑战，如实现热均匀性、确保冷却剂稳定性和管理集成成本等问题，这些问题继续限制了SPIC的广泛采用。因此，第6节系统地讨论了这些挑战及其对未来部署的影响。

未来趋势和研究方向

鉴于第6节中提到的挑战，浸没冷却技术正处于一个关键时刻。尽管SPIC和TPIC在减少能耗和实现高密度计算方面显示出巨大潜力，但它们的广泛应用仍取决于解决热均匀性、流体可靠性和系统集成等问题。

总结

本文综述了SPIC在数据中心和HPC领域的最新进展，涵盖了介电流体、系统集成和基于AI的控制策略。智能控制方法（包括模型预测控制、基于图的预测和强化学习）在能源效率和热稳定性方面取得了可测量的改进。这些技术，特别是与数字孪生结合使用时，可以实现预测性维护、主动优化和安全性。

利益冲突声明

我是本文的通讯作者，王志川。本研究不存在利益冲突。

致谢

作者感谢台湾国家科学技术委员会（NSTC）在合同编号NSTC-114-2221-E-A49-165-MY3下的财政支持。

所有复用或改编自先前发表作品的图表都在相应的图例中进行了标注。使用受版权保护的材料符合出版商的政策和适用的许可要求。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号