hadoop安装与配置

摘要:
设置两台服务器:主机:master192.168.0.252从机:slave01192.0.184。您可以根据实际情况设置多台从机slave1和slave2。每个节点的安装和配置都相同。在实际工作中,我们可以在主机的主节点上完成安装和配置,然后将安装目录复制到其他节点。不需要配置所有节点,这是低效的。注意:所有操作都是root用户权限。1.下载hadoop

设置2台服务器:

主机:master    192.168.0.252   

从机:slave0     192.168.0.184   

可以根据自己的实际情况设置多台从机slave1,slave2.....

每一个节点的安装与配置是相同的,在实际工作中,我们在主机master节点上完成安装和配置后,然后将安装目录复制到其他节点就可以,没有必要把所有节点都配置一遍,那样没有效率。

注意:所有操作都是root用户权限

1、下载hadoop包(只在master做)

访问hadoop官网地址http://hadoop.apache.org/

centos下目前最新下载是wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz

 

2、解压(只在master做)

直接把hadoop-3.2.2.tar.gz放在/opt下

解压   tar -zxf hadoop-3.2.2.tar.gz

解压之后将文件夹重命名为hadoop     mv hadoop-3.2.2 hadoop

hadoop安装与配置第1张

 

 进入安装目录查看(hadoopdata是在后面第11操作中加上去的),有以下目录表示安装成功

hadoop安装与配置第2张

 

 

3、配置env文件hadoop-env.sh(只在master做)

配置jdk文件vim /opt/hadoop/etc/hadoop/hadoop-env.sh

hadoop安装与配置第3张

 

 

4、配置核心组件文件core-site.xml(只在master做)

vim /opt/hadoop/etc/hadoop/core-site.xml,在<configuration>和</configuration>之间加入如下代码:

<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop/hadoopdata</value>
</property>

hadoop安装与配置第4张

 

 

5、配置文件系统hdfs-site.xml(只在master做)这里就是hadoop的默认web访问端口修改的地方,默认是50070、50075、50090

vim /opt/hadoop/etc/hadoop/hdfs-site.xml,在<configuration>和</configuration>之间加入如下代码:

<property>
<name>dfs.http.address</name>
<value>0.0.0.0:50071</value>
</property>
<property>
<name>dfs.datanode.http.address</name>
<value>0.0.0.0:50075</value>
</property>
<property>
<name>dfs.secondary.http.address</name>
<value>0.0.0.0:50090</value>
</property>
<property>
<name>dfs.datanode.ipc.address</name>
<value>0.0.0.0:50020</value>
</property>
<property>
<name>dfs.datanode.address</name>
<value>0.0.0.0:50010</value>
</property>

hadoop安装与配置第5张

6、配置Yarn的站点配置文件yarn-site.xml(只在master做)

vim /opt/hadoop/etc/hadoop/yarn-site.xml,在<configuration>和</configuration>之间加入如下代码:

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.0.252:18040</value>    百度搜的这里都是配置的master,而不是具体的ip,不知道为什么没有调用master成功,配置ip就可以
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>${yarn.resourcemanager.hostname}:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>${yarn.resourcemanager.hostname}:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>${yarn.resourcemanager.hostname}:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>${yarn.resourcemanager.hostname}:18088</value>   这里就是yarn的默认访问端口8088,修改为其他端口去访问yarn页面
</property>

hadoop安装与配置第6张

 

7、配置MapReduce计算框架文件mapred-site.xml(只在master做)

vim /opt/hadoop/etc/hadoop/mapred-site.xml,在<configuration>和</configuration>之间加入如下代码:

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

hadoop安装与配置第7张

 

8、配置master的slaves文件(只在master做)

vim /opt/hadoop/etc/hadoop/slaves

注意:用vi或vim编辑slaves文件,根据自己所搭建集群的实际情况进行编辑。
比如我只安装了slave0

所以应当加入以下代码:

hadoop安装与配置第8张

 

9、复制master上的Hadoop到slave节点(只在master做)

复制命令如下:

scp -r /opt/hadoop root@192.168.0.184:/opt会提示要你输入184的密码,如果有多台slave节点,就再次scp到其他ip就行

10、Hadoop集群的启动-配置操作系统环境变量(主机和从机节点都做)

回到hadoop主目录   cd /opt/hadoop

然后用vi或vim编辑.bash_profile文件      vim ~/.bash_profile  ,把以下代码追加到文件的尾部

#HADOOP

export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

hadoop安装与配置第9张

 保存退出后执行命令source ~/.bash_profile,使上述配置生效

注意:主机和从机节点都要配置

11、创建Hadoop数据目录(只在master做)

mkdir /opt/hadoop/hadoopdata

12、格式化文件系统(只在master做)

hadoop namenode -format

13、配置start-all.sh、stop-all.sh,添加以下参数:(这一步没操作执行第14步就会报错,百度搜解决办法)

HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root

hadoop安装与配置第10张

 

配置start-dfs.sh、stop-dfs.sh,添加以下参数:

HDFS_DATANODE_USER=root

HADOOP_SECURE_DN_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

hadoop安装与配置第11张

 

配置start-yarn.sh、stop-yarn.sh,添加以下参数:

YARN_RESOURCEMANAGER_USER=root

HADOOP_SECURE_DN_USER=yarn

YARN_NODEMANAGER_USER=root

hadoop安装与配置第12张

 

14、启动和关闭Hadoop集群(只在master做)

cd /opt/hadoop/sbin

启动命令:start-all.sh

停止命令:stop-all.sh

百度解释:下次启动Hadoop时,无须NameNode的初始化,只需要使用start-dfs.sh命令即可,然后接着使用start-yarn.sh启动Yarn。

实际上,Hadoop建议放弃(deprecated)使用start-all.sh和stop-all.sh一类的命令,而改用start-dfs.sh和start-yarn.sh命令。

但实际上我每次启动直接用的start-all.sh和stop-all.sh

出现的Hadoop错误:ssh: Could not resolve hostname master: Name or service not known,解决办法如下:

vim /etc/hosts,将主机和从机配置进去

hadoop安装与配置第13张

15、验证Hadoop集群是否启动成功

首先在master做,输入jps,只要有以下4个进程(SecondaryNameNode、 ResourceManager、 Jps 和NameNode)表示主节点master启动成功,平时如果删进程也是用kill -9 进程号

hadoop安装与配置第14张

然后在从机184上输入jps,只要有以下3个进程(NodeManager、Jps 和 DataNode)表明从节点(slave0)启动成功

16、访问页面

第5步中的hdfs配置端口50071访问:http://192.168.0.252:50071

hadoop安装与配置第15张

访问http://192.168.0.252:50090

hadoop安装与配置第16张

访问http://192.168.0.252:50075

hadoop安装与配置第17张

第6步中的yarn配置端口18088,访问http://192.168.0.252:18088

hadoop安装与配置第18张

免责声明:文章转载自《hadoop安装与配置》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇CentOS 6.3下rsync服务器的安装与配置[转]Ora-1157 ora-1110错误解决案例一枚下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

yum install hadoop related client

yum list avaliable hadoop* yum list installed yum repolist repo is in /etc/yum.repos.d yum install hadoop-client yum install hive-jdbc  #beeline yum install hive  # or hive.noarch...

Hadoop学习之路(二)HDFS基础

1.HDFS前言 HDFS:Hadoop Distributed File System,Hadoop分布式文件系统,主要用来解决海量数据的存储问题。 设计思想 分散均匀存储 dfs.blocksize = 128M 备份冗余存储 dfs.replication = 3 在大数据系统中作用 为各类分布式运算框架(如:MapReduce,spark,hi...

卸载Ambari集群

清理ambari安装的hadoop集群本文针对redhat或者centos 对于测试集群,如果通过ambari安装hadoop集群后,想重新再来一次的话,需要清理集群。 对于安装了很多hadoop组件的话,这个工作很繁琐。接下来是我整理的清理过程。 1,通过ambari将集群中的所用组件都关闭,如果关闭不了,直接kill -9 XXX 2,关闭ambari...

hadoop集群的搭建与配置(1)

前言             首先hadoop是在linux系统上进行搭建的,我们首先要在自己电脑上装上虚拟机然后装linux系统,因为我们是测试:在本地虚拟机上装两个linux分别搭建好hadoop环境能实现简单的数据处理就可以了,最终的效果类似于我们c#中的hello world!能做到这里我们的搭建测试环境就算基本上完成了。虚拟机以及linux系统...

spark读写hbase性能对比

一、spark写入hbase    hbase client以put方式封装数据,并支持逐条或批量插入。spark中内置saveAsHadoopDataset和saveAsNewAPIHadoopDataset两种方式写入hbase。为此,将同样的数据插入其中对比性能。依赖如下: <!-- https://mvnrepository.com/art...

更改hadoop集群yarn的webui中的开始时间和结束时间为本地时间

  yarn集群的webui地址为:http://rm:8088   执行任务后,任务的开始时间和结束时间都是utc时间,查看很不方便。   查找相关资料发现hadoop有补丁包,补丁地址:https://issues.apache.org/jira/browse/YARN-1998   补丁内容为: Index: hadoop-yarn-project/...