1.Linxu配置1.1关闭防火墙service iptables stop(暂时关闭防火墙,重启后开启)chkconfig iptables off(永久关闭)1.2修改ip1.3修改主机名和ip的
1.Linxu配置
1.1关闭防火墙
- service iptables stop(暂时关闭防火墙,重启后开启)
- chkconfig iptables off(永久关闭)
1.2修改ip
1.3修改主机名和ip的映射关系
- 修改主机名称
- vi /etc/sysconfig/network
- 修改映射关系
- vi /etc/hosts
1.4安装JDK
- jdk下载地址(tar.gz)
- http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
- 解压jdk
- tar zxvf jdk-7u79-linux-x64.tar.gz
- 创建文件夹统一管理jdk
- mkdir /usr/java
- 转移
- mv jdk-7u79-linux-x64.tar.gz /usr/java/
- mv jdk-7u79-linux-x64 /usr/java/
- 配置环境变量
- 复制jdk目录(/usr/java/jdk1.7.0_79)
- 打开配置文件
- vi /etc/profile
- 按大写G到最后一行,按o新增一行。
- export JAVA_HOME=/usr/java/jdk1.7.0_79
- export PATH=$PATH:$JAVA_HOME/bin
- 更新变量
- source /etc/profile
2.Hadoop配置
2.1安装hadoop
- 访问archive.apache.org/dist/下载hadoop(core内的稳定版本 下载后缀为 tar.gz的 大于15M)
- 创建Hadoop文件夹
- mkdir /hadoop
- 转移
- mv hadoop-2.2.0.tar.gz /hadoop/
- 解压
- tar -zxvf hadoop-2.2.0.tar.gz
2.2配置hadoop伪分布式(修改四个配置文件)
hadoop目录下
bin目录放可执行脚本
share存放依赖Java的jar包
sbin启动脚本
etc存放配置文件
(1)修改etc/hadoop/下的hadoop-env.sh [修改hadoop环境变量]
vi hadoop-env.sh
修改JavaHome
The java implementation to use.
export JAVA_HOME=/usr/java/jdk1.7.0_79
(2)修改etc/hadoop/下的core-site.xml (添加)
vi core-site.xml
<configuration>
第一个属性是用来指定HDFS的老大(NameNode)的地址
<property>
<name>fs.defaultFS</name>
<value>hdfs://主机名:9000</value>
</property>
第二个属性是用来指定Hadoop运行时产生文件的存放目录
<property>
<name>hadoop.tmp.dir</name>
<value>/cloud/hadoop-2.2.0/tmp</value>
</property>
</configuration>
(3)修改etc/hadoop/下的 hdfs-site.xml
指定hdfs保存数据副本的数量
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(4)修改ect/hadoop/下的 mapred-site.xml
hadoop官方并没有给mapred-site.xml只是给了一个mapred-site.xml.template的模板
修改名字
mv mapred-site.xml.template mapred-site.xml
告诉hadoop以后mr运行在YARN上
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
(5)修改ect/hadoop/下的 yarn-site.xml
<configuration>
第一个属性nodemanager获取数据的方式是shuffe
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
2.3将hadoop添加到环境变量
- (1)将hadoop添加到环境变量
- 打开配置文件
- vi /etc/profile
- 按大写G到最后一行,按o新增一行。
- 将之前的path复制删除之后添加hadoophome在旧path后追加hadoophome
- exprot HADOOP_HOME=/hadoop/hadoop-2.2.0
- export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
- 更新变量
- source /etc/profile
2.4初始化HDFS(格式化文件系统)
- hadoop namenode -format(老命令 过时了,但是依然可用)
- hdfs namenode -format 格式化命令(搭建hadoop后只进行一次格式化)
- 格式化后找到:INFO common.Storage: Storage directory /hadoop/hadoop-2.2.0/tmp/dfs/name has been successfully formatted.
- 看到successfully formatted 那么好,格式化成功了
2.5启动hadoop
This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh
启动hdfs和yarn
./start-all.sh (过时了)
http://192.168.1.161:8088/(yarn管理界面)
http://192.168.1.161:50070/(hdfs管理界面)
Live Nodes(存活的节点,代表的是datanodes)
Browse the filesystem查看文件系统
(想要进入此页面需要在win上配置一下映射关系,因为url变成了主机名而不是ip)
2.6测试HDFS
- 把linux上的文件上传到hdfs上
- hadoop fs -put /root/install.log hdfs://hadoop001:9000/testin
- 把hdfs上的文件下载下来
- hadoop fs -get hdfs://hadoop001:9000/test /usr/testhadoop
小贴士不知道命令的时候 按回车查看
2.7测试MR和YARN
- hadoop jar hadoop-mapreduce-examples-2.2.0.jar wordcount hdfs://hadoop001:9000/words hdfs://hadoop001:9000/wordsout
2.8SSH免密码登录配置
- 生成ssh 公私钥
- ssh-keygen -t rsa
- 将当前公钥拷贝到已认证的钥匙库里
- cp id_rsa.pub authorized_keys
至此,如若测试全部通过,hadoop伪分布式集群搭建成功