GSHetero:基于异构分组和异质性感知的数据放置方法,以提高Hadoop中MapReduce的性能

《IEEE Networking Letters》:GSHetero - Grouping and Heterogeneity-Aware Data Placement to Improve MapReduce Performance in Hadoop

【字体: 时间:2025年11月19日 来源:IEEE Networking Letters CS5.3

编辑推荐:

  提升Hadoop集群MapReduce性能的数据布局优化方法,通过分析数据访问模式提取分组语义,结合节点异构性重新组织数据分布,实验表明该方法使数据本地性提升27.4%,CPU利用率提高47%。

  

摘要:

在Hadoop集群中执行MapReduce(MR)应用程序面临重大挑战,这主要是由于以下两个问题未被充分考虑:1. 数据密集型应用程序中的分组语义;2. 计算节点的异构性导致块分布不理想,使得执行任务集中在少数节点上,从而增加了处理时间并降低了数据局部性。本文提出了一种改进的数据放置策略,通过利用分组语义和节点异构性(GSHetero)来提升MR性能。首先,分析执行轨迹以识别数据访问模式;然后应用MCL算法提取分组语义;接着提出GSHetero算法,该算法根据分组语义重新组织数据布局,以确保更高的并行性。通过在云环境中部署的10节点Hadoop集群上对天气数据集执行线性回归实验,证明了GSHetero的有效性。实验结果显示,GSHetero将数据局部性提高了27.4%,CPU利用率提高了47%。此外,还在不同规模的集群(15个、20个节点)和不同工作负载下执行Hadoop基准测试(WordCount),进一步验证了GSHetero的性能。

引言

随着数据复杂性的增加,许多组织开始采用大数据处理平台(如Hadoop)来存储、管理和处理大量数据。Hadoop的计算基础设施包括用于数据分布式存储的Hadoop分布式文件系统(HDFS)以及用于并行处理数据的MR。然而,在Hadoop集群上执行MR应用程序时存在诸多挑战,主要原因是未充分考虑:1. 数据密集型应用程序中的分组语义;2. 计算节点的异构性。

大多数数据密集型应用程序都表现出“分组语义”,这是决定MR性能的关键因素[1]。在这种情况下,相关领域的科学家通常只会使用与他们领域相关的数据集的一部分,而不会访问全部数据。

在实时大数据集群中,由于引入了GPU、SSD和SAN等专用架构以提高运行效率,异构性变得不可避免。同时,为了应对数据量的快速增长,组织会扩展存储、计算和网络带宽,从而导致集群内部的异构性。因此,异构性并非异常现象,而是大数据集群的常态。

由于缺乏对分组语义和节点异构性的考虑,往往会导致块分布不理想,执行任务集中在少数节点上,进而增加处理时间并降低数据局部性。为了解决这一问题,本文提出了一种新的策略,该策略整合了分组语义和节点异构性,从而提高了Hadoop环境中的数据局部性并减少了执行时间。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号