MapReduce生产上的缺点

Spark产生背景:

1.MapReduce的局限性:

1)繁杂

​ map/reduce算子 (mapjoin没有ruduce)

2)效率低

​ 进程级别:MapTask,ReduceTask

​ IO:(网络加磁盘)第一个作业的输出作为第二个作业的输入,这个中间阶段需要将作业存在一个地方

​ 排序:面试题:MapReduce 中的key类型需要实现哪个接口:WritableComparable这个接口。 为了是这个框架能够提供排序的功能,key和value都要实现 Writable接口。

​ Memory:

不适合迭代处理

不适合实时流式处理

2.如何学习Spark

1)首先看官网,**非常重要

2)其次看 github

3)看源码

3.Spark中bin和sbin的含义:

bin:存放客户端的脚本

sbin:存放服务端相关的脚本,启停集群

本文标题:MapReduce生产上的缺点

文章作者:skygzx

发布时间:2019年04月30日 - 07:43

最后更新:2019年04月30日 - 15:33

原始链接:http://yoursite.com/2019/04/30/MapReduce的缺点/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

-------------本文结束感谢您的阅读-------------
0%