Ubuntu 安装 Hadoop(伪分布模式)

摘要:
最终修改后的文件内容如下:二、配置yarn-site.xml/usr/local/hadoop/etc/hadoop/yarn-site.xml包含了MapReduce启动时的配置信息。编辑器打开hdfs-site.xml在该文件的之间增加如下内容:dfs.replication1dfs.namenode.name.dirfile:/usr/local/hadoop/hdfs/namedfs.datanode.data.dirfile:/usr/local/hadoop/hdfs/data保存、关闭编辑窗口最终修改后的文件内容如下:五、格式化hdfs在profile文件中添加:exportJAVA_LIBRARY_PATH=/usr/local/hadoop/lib/nativehdfsnamenode-format只需要执行一次即可,如果在hadoop已经使用后再次执行,会清除掉hdfs上的所有数据。六、启动Hadoop经过上文所描述配置和操作后,下面就可以启动这个单节点的集群执行启动命令:sbin/start-dfs.sh执行该命令时,如果有yes/no提示,输入yes,回车即可。
Ubuntu14.04下安装Hadoop2.4.0 (单机模式)基础上配置

一、配置core-site.xml

/usr/local/hadoop/etc/hadoop/core-site.xml 包含了hadoop启动时的配置信息。

编辑器中打开此文件

sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

Ubuntu 安装 Hadoop(伪分布模式)第1张

在该文件的<configuration></configuration>之间增加如下内容:

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

保存、关闭编辑窗口。

最终修改后的文件内容如下:

Ubuntu 安装 Hadoop(伪分布模式)第2张

二、配置yarn-site.xml

/usr/local/hadoop/etc/hadoop/yarn-site.xml包含了MapReduce启动时的配置信息。

编辑器中打开此文件

sudo gedit yarn-site.xml

Ubuntu 安装 Hadoop(伪分布模式)第3张

在该文件的<configuration></configuration>之间增加如下内容:

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

保存、关闭编辑窗口

最终修改后的文件内容如下

Ubuntu 安装 Hadoop(伪分布模式)第4张

三、创建和配置mapred-site.xml

默认情况下,/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件,我们要复制该文件,并命名为mapred.xml,该文件用于指定MapReduce使用的框架。

复制并重命名

cp mapred-site.xml.template mapred-site.xml

编辑器打开此新建文件

sudo gedit mapred-site.xml

Ubuntu 安装 Hadoop(伪分布模式)第5张

在该文件的<configuration></configuration>之间增加如下内容:

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

保存、关闭编辑窗口

最终修改后的文件内容如下

Ubuntu 安装 Hadoop(伪分布模式)第6张

四、配置hdfs-site.xml

/usr/local/hadoop/etc/hadoop/hdfs-site.xml用来配置集群中每台主机都可用,指定主机上作为namenode和datanode的目录。

创建文件夹,如下图所示

Ubuntu 安装 Hadoop(伪分布模式)第7张

你也可以在别的路径下创建上图的文件夹,名称也可以与上图不同,但是需要和hdfs-site.xml中的配置一致。

编辑器打开hdfs-site.xml

在该文件的<configuration></configuration>之间增加如下内容:

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hdfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hdfs/data</value>

</property>

保存、关闭编辑窗口

最终修改后的文件内容如下:

Ubuntu 安装 Hadoop(伪分布模式)第8张

五、格式化hdfs

在profile文件中添加:
export JAVA_LIBRARY_PATH=/usr/local/hadoop/lib/native
(注:调用hadoop里的库)

hdfs namenode -format

只需要执行一次即可,如果在hadoop已经使用后再次执行,会清除掉hdfs上的所有数据。

六、启动Hadoop

经过上文所描述配置和操作后,下面就可以启动这个单节点的集群

执行启动命令:

sbin/start-dfs.sh

执行该命令时,如果有yes /no提示,输入yes,回车即可。

接下来,执行:

sbin/start-yarn.sh

执行完这两个命令后,Hadoop会启动并运行

执行 jps命令,会看到Hadoop相关的进程,如下图:

Ubuntu 安装 Hadoop(伪分布模式)第9张

浏览器打开 http://localhost:50070/,会看到hdfs管理页面

Ubuntu 安装 Hadoop(伪分布模式)第10张

浏览器打开http://localhost:8088,会看到hadoop进程管理页面

Ubuntu 安装 Hadoop(伪分布模式)第11张

七、WordCount验证

dfs上创建input目录

bin/hadoop fs -mkdir -p input

Ubuntu 安装 Hadoop(伪分布模式)第12张

把hadoop目录下的README.txt拷贝到dfs新建的input里

hadoop fs -copyFromLocal README.txt input

Ubuntu 安装 Hadoop(伪分布模式)第13张

运行WordCount

hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.4.0-sources.jar org.apache.hadoop.examples.WordCount input output

Ubuntu 安装 Hadoop(伪分布模式)第14张

可以看到执行过程

Ubuntu 安装 Hadoop(伪分布模式)第15张

运行完毕后,查看单词统计结果

hadoop fs -cat output/*

Ubuntu 安装 Hadoop(伪分布模式)第16张

  • 相关阅读:
    Mantis安装过程笔记
    Python脚本文件中使用中文
    String.trim的作用
    Ivy入门笔记
    Groovy正则表达式复杂逻辑判断实例
    Build a ZenTao Server on Linux
    Ubuntu上安装gevent
    Install Redmine Server with Bitnami Installer
    Semi-automation Script Based on Sleep
    关于MySQL的事务处理及隔离级别
  • 原文地址:https://www.cnblogs.com/wanggs/p/5584027.html
  • 免责声明:文章转载自《Ubuntu 安装 Hadoop(伪分布模式)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

    上篇Jenkins执行python脚本jmeter聚合报告详解下篇

    宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

    相关文章

    Apache Kylin 是什么?

      不多说,直接上干货! Apache Kylin的官网 http://kylin.apache.org/cn/ - 可扩展超快OLAP引擎:  Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计 - Hadoop ANSI SQL 接口:  Kylin为Hadoop提供标准SQL支持大部分查询功能 - 交互式查询能力:  通过Kylin,用户...

    Spark(十六)DataSet

      Spark最吸引开发者的就是简单易用、跨语言(Scala, Java, Python, and R)的API。 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API;它们各自适合的使用场景;它们的性能和优化;列举使用DataFrame和DataSet代替RDD的场景。本文聚焦DataFrame和Datase...

    大数据系列(1)——Hadoop集群坏境搭建配置

    前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案,更有很多数据相关的项目比如弄几张报表,写几个T-SQL语句就被冠以“大数据项目”,当然了,时下热门的话题嘛,先把“大数据”帽子扣上,这样才能显示出项目的高...

    Hbase介绍及操作

    1. Hbase概述 1.1 Hbase是什么 HBase是建立在HDFS之上的分布式面向列的数据库;属于KV结构数据,原生不支持标准SQL。它是一个Apache的开源项目,是横向扩展的。 HBase可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。 HBase不同于一般的关系数据库,它是一个适合于非结构化数据...

    CDH集群主节点宕机恢复

    1       情况概述 公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM、HDFS的NameNode、HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘。 Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复,所以只能通过集群恢复的手段将集群重新跑起来。...

    基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优

    Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度。接下来就如何搭建Hiv...