1.MapReduce 分布式计算框架
1 | 企业开发不用jiav代码,很复杂,很累赘,mr job基于磁盘运算,速度太慢 |
**
2.MapReduce架构(重要)
当面试的时候问到,MapReduce 架构设计、Yarn架构设计、Yarn的工作流程、MapReduce job 提交到 Yarn的工作流程 (面试题为同一题),其实都是同一个问题。**1
2
3on Yarn 运行在Yarn上
容器:container(Yarn的资源的抽象概念)
运行在 Yarn nodemanager节点机器上,是一个虚拟的概念,将内存和cpu(vcore)封装成最小的单元,运行我们计算的任务task。
1 | vcore 虚拟core |
3.task 运行计算任务在 container
1 | Yarn: |
1 | 1.用户向yarn提交应用程序(job),其中包括application Master程序,启动application Master命令等 |
4.shuffle 洗牌
1 | map--> shufle--> reduce |
祥细看一下博客:http://blog.itpub.net/30089851/viewspace-2095837/
5.常用命令
1 | [hadoop@hadoop002 bin]$ mapred --help |