云彩店邀请码|半壳|优胜
MapReduce是一种用于数据处理的分布式计算框架,作为MapReduce的开源实现,Hadoop得到了广泛应用。Hadoop MapReduce的性能很大程度上依赖于其中的参数配置,因此调整这些配置参数为优化MapReduce的性能提供了一种有效的方法。然而由于MapReduce的复杂性以及相应配置参数空间的高维和非线性特点,如何选出一组较优的配置参数却并不容易。本论文通过对MapReduce优化以及参数配置优化的相关研究,得出一种使用搜索算法寻找一组最优参数配置的优化方法,该方法基于MapReduce配置参数模型以及通过分析作业信息建立的MapReduce作业分析模型。并且通过实验证明了这种优化方法对MapReduce作业的优化效果。首先,本论文建立了MapReduce配置参数模型。通过分析当前Hadoop相关参数的配置经验根据参数可调整的程度对能够显著影响MapReduce作业运行性能的主要参数进行分组,并且根据参数优化的目标以及参数间的相互关系对每组参数进行预处理,缩小参数取值范围从而达到对参数进行预先优化处理的目的。其次,本论文通过作业的信息收集和分析建立MapReduce作业分析模型。通过收集MapReduce作业运行时产生的作业日志文件以及使用分析工具得到的作业Profile信息文件,建立作业分析模型,分析计算出作业特征信息包括作业运行时各个阶段的数据量信息、运行时间信息、数据转化率信息和运行速率信息,并导出作业特征信息文件,为搜索算法目标函数的计算提供相关的作业信息。然后,本论文设计了一种参数搜索算法。在作业分析模型的基础上构造虚拟作业,并将该虚拟作业的运行时间作为目标函数,根据这个目标函数使用搜索算法找出一组最优配置参数。本论文设计了网格爬山算法(Grid Hill Climbing,GHC),该算法通过使用子空间划分方法解决了陷入局部优化的问题,通过实验证明了该搜索算法的搜索效率。最后,本论文根据前面相关的研究工作设计并实现了一个MapReduce参数配置优化系统。论文详细介绍了系统的各个部分的具体实现并且通过对比实验证明了该优化系统所提供的配置参数能够达到缩短MapReduce作业运行时间的效果。
来源:半壳优胜鲸鱼幸运星转载请保留出处和链接!
本文链接:http://87cpy.com/262250.html
本站部分内容来源网络如有侵权请联系删除