
-
生物通官微
陪你抓住生命科技
跳动的脉搏
局部可修复编码在集群存储系统中的最优修复与负载均衡设计与评估
【字体: 大 中 小 】 时间:2025年09月05日 来源:Future Generation Computer Systems 6.2
编辑推荐:
本文针对集群存储系统中局部可修复编码(LRC)的修复效率与负载均衡问题,提出了一种创新的存储方案。通过最优数据分区策略(最小化跨集群修复流量)和动态节点选择策略(优先分配高访问频率块至低负载节点),显著提升了修复性能(最高达9.1倍)并降低存储/网络失衡率(最高68.9%)。实验基于Memcached实现,为分布式存储系统优化提供了重要参考。
亮点与结论
集群存储系统的异构性挑战
现代存储系统普遍采用集群架构,节点通过核心网络连接。跨集群带宽(仅为集群内带宽的1/5至1/20)成为关键瓶颈,亟需减少跨集群数据传输。
挑战与动机
以单集群容错(t=1)为例:
挑战1:传统平坦分区策略(如Azure LRC)将每组数据块分散到多个集群,导致修复全局校验块时产生大量跨集群流量。
挑战2:随机节点选择造成存储与网络负载失衡,高访问频率块可能集中于少数节点。
存储方案设计
分区策略:
单集群容错时,将每组数据/本地校验块压缩至最少集群,全局校验块集中存放(算法1)。
扩展至t集群容错(算法2),适应复杂容错场景。
节点选择:基于热度预测优先分配高访问块至低负载集群/节点(算法3)。
再平衡策略:动态调整存储分布以应对访问波动。
系统实现
基于Memcached构建键值存储原型,集成上述算法,支持元数据管理与实时负载监控。
评估结果
单集群容错下:
修复速率较平坦分区提升9.1倍,较随机分区提升3.4倍。
降级读取时间减少90.9%(平坦分区)和84.4%(随机分区)。
存储/网络失衡率降低33.8%和68.9%。
t集群容错(t=2/3)时:修复速率提升1.4倍,降级时间减少42.7%。
结论
本研究通过优化LRC存储布局与动态资源分配,显著提升修复效率与系统均衡性,为分布式存储架构提供了可落地的解决方案。
生物通微信公众号
知名企业招聘