
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CPU-GPDSP异构融合架构下CP2K分子模拟的性能优化与跨平台比较研究
《Future Generation Computer Systems》:Exploring the performance of CP2K simulations on the CPU-GPDSP Fusion intra-heterogeneous HPC system
【字体: 大 中 小 】 时间:2025年05月30日 来源:Future Generation Computer Systems 6.2
编辑推荐:
【编辑推荐】本研究针对高性能计算(HPC)环境中CP2K量子化学软件在MT-3000异构处理器(集成ARMv8 CPU与GPDSP)上的性能瓶颈问题,通过向量化DFT积分运算、GEMM矩阵优化及hthreads异构编程框架适配,实现79%的并行效率(256节点/40万核),相较AVX-512平台展现出显著加速优势,为超算中心材料模拟提供新架构解决方案。
在计算化学领域,随着分子体系复杂度的指数级增长,传统x86架构已难以满足海量量子化学计算需求。CP2K作为支持密度泛函理论(DFT)和分子动力学(MD)的开源软件,虽在常规超算中心广泛应用,但其在新型异构处理器上的性能优化仍是空白。MT-3000处理器的出现带来转机——这款由中国研发的异构芯片通过ARMv8 CPU与高吞吐量GPDSP(通用数字信号处理器)的片上融合,FP64浮点性能达到AMD EPYC 9754的1.2倍,但如何让CP2K充分发挥其硬件潜力成为关键科学问题。
国家重点研发计划支持的研究团队通过三项核心技术突破该难题:首先采用hthreads异构编程框架实现CPU-GPDSP任务动态分配,其次针对GPDSP内存架构优化GEMM(通用矩阵乘)运算核心,最后对DFT中的电子积分运算进行向量化重构。实验采用水分子体系标准测试集,在400,000核规模下取得79%的强扩展效率,远超传统超算平台60%的基准线。
【MT-3000 HPC系统配置】
硬件层面采用1:4的CPU-GPDSP核心配比,通过PCIe 4.0互联实现微秒级延迟;软件栈基于Linux定制化内核,支持ARMv8指令集与GPDSP专用编译器。
【程序迁移与优化】
将CP2K的DFT模块拆分为CPU端任务调度与GPDSP端矩阵运算,利用hthreads的异步执行机制隐藏数据传输延迟,使GPDSP利用率提升至92%。
【性能对比AVX-512】
在相同水分子体系下,MT-3000的每瓦特性能是AVX-512平台的2.3倍,但小规模计算(<1,000原子)时因GPDSP启动开销略逊于x86架构。
这项研究首次验证了GPDSP在量子化学模拟中的实用价值,为下一代超算架构设计提供重要参考。作者在讨论部分指出,未来可通过机器学习预测最佳CPU-GPDSP任务划分比例,进一步突破异构计算的阿姆达尔定律限制。论文成果发表于《Future Generation Computer Systems》,标志着我国在自主芯片适配国际主流科学软件领域取得突破性进展。
生物通微信公众号