Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。

hadoop是一个统称，目前hadoop主要包含三大组件

hdfs：是一个分布式存储框架，适合海量数据存储

主从结构

namenode负责

datanode负责

mapreduce：是一个分布式计算框架，适合海量数据计算

主从结构

MRAppMaster负责

接收客户端提交的计算任务
把计算任务分给NodeManager的Container中执行，即任务调度
Container是YARN中资源的抽象，它封装了某个节点上一定量的资源（CPU和内存两类资源）
Container由ApplicationMaster向ResourceManager申请的，由ResouceManager中的资源调度器异步分配给ApplicationMaster
Container的运行是由ApplicationMaster向资源所在的NodeManager发起的监控Container中Task的执行情况

Task负责

yarn：是一个资源调度平台，负责给计算框架分配计算资源

主从结构

ResourceManager负责

NodeManager负责

Hadoop 集群的搭建方法

linux 配置

首先打开文件 /etc/sysconfig/network 其文件内容如下

1
2
3

NETWORKING=yes
HOSTNAME=centos1
NTPSERVERARGS=iburst

其中，HOSTNAME 代表的就是主机名。建议按照节点的功能设置主机的名称，例如 master，node1 之类的

打开 /etc/hosts 文件，文件内容如下：

1
2
3

192.168.75.110 centos
192.168.75.111 centos1
192.168.75.112 centos2

文件格式为 主机 ip 地址+空格+主机名 通过上述映射可以将主机名和主机的 ip 地址连接起来，进行连接时，输入主机名就能进行 ip 连接，方便的不行

# 关闭防火墙
service iptables stop  
# 关闭防火墙自启动
chkconfig iptables off

由于 Hadoop 需要频繁的在不同的节点之间传输文件，所以需要配置免密登录。配置免密登录的步骤如下：