
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GSHetero:基于异构分组和异质性感知的数据放置方法,以提高Hadoop中MapReduce的性能
《IEEE Networking Letters》:GSHetero - Grouping and Heterogeneity-Aware Data Placement to Improve MapReduce Performance in Hadoop
【字体: 大 中 小 】 时间:2025年11月19日 来源:IEEE Networking Letters CS5.3
编辑推荐:
提升Hadoop集群MapReduce性能的数据布局优化方法,通过分析数据访问模式提取分组语义,结合节点异构性重新组织数据分布,实验表明该方法使数据本地性提升27.4%,CPU利用率提高47%。
随着数据复杂性的增加,许多组织开始采用大数据处理平台(如Hadoop)来存储、管理和处理大量数据。Hadoop的计算基础设施包括用于数据分布式存储的Hadoop分布式文件系统(HDFS)以及用于并行处理数据的MR。然而,在Hadoop集群上执行MR应用程序时存在诸多挑战,主要原因是未充分考虑:1. 数据密集型应用程序中的分组语义;2. 计算节点的异构性。
大多数数据密集型应用程序都表现出“分组语义”,这是决定MR性能的关键因素[1]。在这种情况下,相关领域的科学家通常只会使用与他们领域相关的数据集的一部分,而不会访问全部数据。
在实时大数据集群中,由于引入了GPU、SSD和SAN等专用架构以提高运行效率,异构性变得不可避免。同时,为了应对数据量的快速增长,组织会扩展存储、计算和网络带宽,从而导致集群内部的异构性。因此,异构性并非异常现象,而是大数据集群的常态。
由于缺乏对分组语义和节点异构性的考虑,往往会导致块分布不理想,执行任务集中在少数节点上,进而增加处理时间并降低数据局部性。为了解决这一问题,本文提出了一种新的策略,该策略整合了分组语义和节点异构性,从而提高了Hadoop环境中的数据局部性并减少了执行时间。
生物通微信公众号
知名企业招聘