完全去中心化的数据分发机制,适用于大规模高性能计算(HPC)系统
《IEEE Transactions on Parallel and Distributed Systems》:Fully Decentralized Data Distribution for Large-Scale HPC Systems
【字体:
大
中
小
】
时间:2025年11月25日
来源:IEEE Transactions on Parallel and Distributed Systems 6
编辑推荐:
针对HPC系统数据分发扩展性差的问题,提出FD3全去中心化模型,基于BitTorrent协议设计RVT表和HLF策略优化数据调度,采用torrent-tree加速种子文件分发和状态聚合,实验表明其性能比并行文件系统提升8-15倍,支持11k+节点扩展,为Exascale系统数据访问模式提供新思路。
摘要:
多年来,在高性能计算(HPC)的数据分发场景中,随着HPC系统规模的不断扩大,制造商不得不增加数据提供者的数量以提高I/O并行性,以满足数据需求者的需求。在大规模尤其是百亿亿次级(exascale)的HPC系统中,这种将需求者与提供者分离的模式存在显著的可扩展性限制,并且会带来较高的成本。我们认为,只有当需求者同时也充当提供者时,系统才能从根本上应对规模的变化并实现最佳的可扩展性。本文提出的这种模式被称为“全对全”数据分发模式。我们在HPC系统的计算网络上设计并实现了BitTorrent协议,并提出了一种完全去中心化的数据分发方法FD3。基于HPC网络的特点,我们设计了“请求验证表”(RVT)以及“最高排名和最长连续数据段优先”(HLF)策略来提升FD3的性能。此外,我们还设计了一种“种子文件数据分发树”来加速数据分发和分发状态的聚合,并通过“邻域本地生成算法”减轻跟踪器的负担。实验结果表明,FD3能够顺利扩展到11k多个计算节点,其性能远优于传统的并行文件系统;与原始的BitTorrent相比,性能提升了8到15倍。FD3充分展示了“全对全”模型在HPC数据分发场景中的巨大潜力。此外,本文的工作将进一步推动未来分布式并行文件系统的研究,并为Exscale HPC系统的数据访问模式设计提供基础和灵感。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号