Spark产生背景:
1.MapReduce的局限性:
1)繁杂
map/reduce算子 (mapjoin没有ruduce)
2)效率低
进程级别:MapTask,ReduceTask
IO:(网络加磁盘)第一个作业的输出作为第二个作业的输入,这个中间阶段需要将作业存在一个地方
排序:面试题:MapReduce 中的key类型需要实现哪个接口:WritableComparable这个接口。 为了是这个框架能够提供排序的功能,key和value都要实现 Writable接口。
Memory:
不适合迭代处理
不适合实时流式处理
2.如何学习Spark
1)首先看官网,**非常重要
2)其次看 github
3)看源码
3.Spark中bin和sbin的含义:
bin:存放客户端的脚本
sbin:存放服务端相关的脚本,启停集群