1.Hadoop生态离线项目涉及到的技术:
1 | Hadoop生态离线项目 |
2.面试会问: 你们的集群规模是多少?=>每台机器的配置是什么?=>机型(物理机)是什么?
3.离线处理架构:
1 | 需要先将日志用Flume方式从某个server上采集日志信息到hdfs上(建议压缩的文本格式),或者用Sqoop/Spark技术从RDBMS上采集过来。 |
3.1整个流程步骤
1 | ①数据采集:从Web server用Flume采集到hadoop |
3.2关于ETL过程:(在这里先用MapReduce来进行操作)
1 | 对于之前的用sqoop从RDBMS抽数据到hadoop上,ETL操作只涉及到Map,而不涉及reduce。 |
3.2ETL详解图: