一种基于改进的链式MapReduce的并行ETL应用
[本文摘要]
介绍了并行ETL的相关工作和常见的处理多MapReduce作业流程的方法;提出一种改进的链式MapReduce框架,并将此框架应用于一个并行ETL工具,同时提出一些针对ETL处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明,本ETL工具的性能平均比Hive快10%~20%。
相关阅读
热门文章
2021年12月6日
2016年10月28日
2016年10月24日
2016年9月28日
蓝戈沙龙