基于差分性能模型的GPU端口性能验证方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月19日 来源：Future Generation Computer Systems 6.2

编辑推荐：

　　为解决GPU端口性能验证的碎片化问题，研究人员开发了基于差分性能建模的半自动化工具链，通过统一CPU-GPU性能模型与硬件特征分析，系统识别GPU端口的性能瓶颈与优化空间。该研究在四个案例中验证了工具链在定位扩展性问题、指导性能改进及识别优势配置方面的有效性，为异构计算性能优化提供了新范式。

随着超级计算机中GPU逐渐成为算力核心，如何验证GPU端口（GPU port）的性能优势成为关键挑战。传统基准测试仅能获取有限配置样本，无法全面评估不同问题规模、节点数量下的性能差异。更复杂的是，GPU异步执行、代码重构导致的调用树结构变化，以及能效与并行效率的权衡，使得性能验证成为多维难题。

德国达姆施塔特工业大学（Technische Universit?t Darmstadt）实验室的研究团队在《Future Generation Computer Systems》发表研究，提出基于差分性能建模（differential performance modeling）的创新工具链。该工作通过集成统一CPU-GPU分析器与扩展版Extra-P工具，首次实现跨版本、跨配置的结构化性能对比，解决了传统方法无法捕捉重叠GPU活动、难以映射异构调用树的痛点。

关键技术包括：1）新型CPU-GPU分析器，将异步GPU活动嵌入同步调用树；2）差分性能建模方法，结合硬件特征生成可比较模型；3）改进版Extra-P工具，支持运行时、能效等四维度自动化验证。研究使用DEEP-EST超算系统，对比Intel Xeon Gold CPU与NVIDIA V100 GPU的实测数据。

主要结果

案例验证：在CUDA/RAJA加速的四个案例中，工具链成功识别出GPU优势区间，如某内核在问题规模>2¹⁵时显现性能优势。
瓶颈定位：通过差分模型发现某GPU端口在节点数>64时并行效率骤降30%，指导优化内存传输策略。
能效分析：揭示特定配置下GPU版本虽提速1.8倍，但能耗增加40%，需权衡取舍。

结论与意义
该研究首次将差分分析思想引入性能建模领域，其工具链可系统回答“GPU端口何时优于CPU”这一核心问题。通过统一分析框架，研究者能同时评估运行时、能效、硬件利用率（如FLOP/s）和并行效率，突破传统单点对比局限。案例表明该方法对异构编程模型（如MPI+OpenMP+CUDA）具有普适性，为Exascale时代的性能优化提供了方法论基础。作者Alexander Gei?等强调，该工具链已应用于欧盟百亿亿次计算项目，未来将扩展至AMD GPU等新架构支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号