Hadoop学习笔记-HDFS命令

摘要:
用户可以将MapReduce代码绑定到jar文件中。原则上,Hadoop中的所有MapReduce作业都是一个jar包。

进入 $HADOOP/bin

一.文件操作

文件操作 类似于正常的linux操作前面加上“hdfs dfs -”

前缀也可以写成hadoop而不用hdfs,但终端中显示

Use of this script to execute hdfs command is deprecated.
Instead use the hdfs command for it.

1.创建目录:(注意 文件夹需一级一级创建)

hdfs dfs -mkdir /user

hdfs dfs -mkdir /user/com

hdfs dfs -mkdir /user/com/evor

2.删除文件目录

hdfs dfs -rm -r /user/com/evor  (-rmr也可以) 删除文件夹下所有东西 rm的递归版本

hdfs dfs -rm /user/com/evor/hadoop.txt  删除文件

3.上传文件

1)hdfs dfs -put  /本/地/路/径/spark.jar   /user/com/evor

2)hdfs dfs -copyFromLocal  /本/地/路/径/spark.jar   /user/com/evor 

区别 copyFromLocal 限定源路径为本地的路径,其他与-put相同

4.下载文件

复制文件到本地

1) hdfs dfs -get /user/com/evor/spark.jar   /本/地/路/径

2) hdfs dfs -copyToLocal  /user/com/evor/spark.jar   /本/地/路/径

区别 copyToLocal 限定目标路径为本地的路径,其他与-get相同

5.查看文件

我们可以直接在hdfs中直接查看文件,功能与cat类似

将路径指定文件的内容输出到stdout。

hdfs dfs -cat /user/com/evor/hadoop.txt   

hadoop fs -cat hdfs://host1:port1/file1  hdfs://host2:port2/file2

hadoop fs -cat file:///file3   /user/hadoop/file4

6.修改权限

hdfs dfs -chmod 777 /user/com/evor/WordCount.sh 

二.MapReduce Job操作

1. 提交MapReduce Job

运行jar文件。用户可以把他们的Map Reduce代码捆绑到jar文件中,原则上说,Hadoop所有的MapReduce Job都是一个jar包。

运行一个/home/admin/hadoop/job.jar的MapReduce Job

执行:hadoop  jar /home/admin/hadoop/job.jar [jobMainClass] [jobArgs]    (注意 是hadoop 不是hdfs)

2. 杀死某个正在运行的Job

假设Job_Id为:job_201005310937_0053

执行:hadoop job -kill job_201005310937_0053

 

相关链接 -> http://www.cnblogs.com/xd502djj/p/3625799.html

 

更多命令提示:

输入hdfs

hadoop@Node4:/$ hdfs
Usage: hdfs [--config confdir] COMMAND
       where COMMAND is one of:
  dfs                  run a filesystem command on the file systems supported in Hadoop.
  namenode -format     format the DFS filesystem
  secondarynamenode    run the DFS secondary namenode
  namenode             run the DFS namenode
  journalnode          run the DFS journalnode
  zkfc                 run the ZK Failover Controller daemon
  datanode             run a DFS datanode
  dfsadmin             run a DFS admin client
  haadmin              run a DFS HA admin client
  fsck                 run a DFS filesystem checking utility
  balancer             run a cluster balancing utility
  jmxget               get JMX exported values from NameNode or DataNode.
  oiv                  apply the offline fsimage viewer to an fsimage
  oev                  apply the offline edits viewer to an edits file
  fetchdt              fetch a delegation token from the NameNode
  getconf              get config values from configuration
  groups               get the groups which users belong to
  snapshotDiff         diff two snapshots of a directory or diff the
                       current directory contents with a snapshot
  lsSnapshottableDir   list all snapshottable dirs owned by the current user
                        Use -help to see options
  portmap              run a portmap service
  nfs3                 run an NFS version 3 gateway
  cacheadmin           configure the HDFS cache

Most commands print help when invoked w/o parameters.

================================

注意:格式化hadoop之后重新启动平台,输入jps 有时会发现没有namenode进程

查namenode日志文件,/usr/local/hadoop/hadoop-2.4.1/logs 里的namenode相关文件,发现namenode clusterID与datenode的不同造成了错误

分别查看

/usr/local/hadoop/hadoop-2.4.1/hdfs/data/current/VERSION

/usr/local/hadoop/hadoop-2.4.1/hdfs/name/current/VERSION

将clusterID改成相同即可。

免责声明:文章转载自《Hadoop学习笔记-HDFS命令》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇【SpringCloud】SpringCloud Alibaba Sentinel实现熔断与限流js常用API方法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

hiveserver2的配置和启动

概览1.配置hive-site.xml2.配置hadoop中的core-site.xml文件3.测试 首先将hive安装 然后更改部分配置文件 1.配置hive-site.xml利用Xshell工具连接虚拟机 进入hive安装目录下的conf文件夹,更改hive-site.xml配置文件其中配置参考hive安装中的配置hive-site.xml 你会发现/...

Ubuntu 安装 Hadoop(伪分布模式)

在Ubuntu14.04下安装Hadoop2.4.0 (单机模式)基础上配置一、配置core-site.xml /usr/local/hadoop/etc/hadoop/core-site.xml 包含了hadoop启动时的配置信息。 编辑器中打开此文件 sudo gedit /usr/local/hadoop/etc/hadoop/core-site....

Hadoop2.7.3集群安装scala-2.12.8 和spark2.7

Apache Spark™是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算 模型。高效的支撑更多计算模式,包括交互式查询和...

HDFS之五:Hadoop 拒绝远程 9000 端口访问

最近学习Hadoop 时发现在本机访问 hadoop 9000 端口没有问题,但是远程机器访问 9000端口时不能访问,通过telnet 命令诊断发现发现无法访问端口,经过网上搜索解决方案结合自己实践,总结解决办法一般有以下几点。 首先,利用netstat -tpnl查看的端口开放情况 下图中9000端口只能本机访问 下图中的9000端口可以通过192....

大数据系列(1)——Hadoop集群坏境搭建配置

前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案,更有很多数据相关的项目比如弄几张报表,写几个T-SQL语句就被冠以“大数据项目”,当然了,时下热门的话题嘛,先把“大数据”帽子扣上,这样才能显示出项目的高...

(3)hadoop单节点配置

hadopp版本hadoop-2.6.0-cdh5.7.0      下载地址http://archive-primary.cloudera.com/cdh5/cdh/5/ 同样使用flashFXP上传到linux   家文件夹下softwear下 解压至app目录下 tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C...