Hadoop

Spark官方文档翻译(一)~Overview

Spark官方文档翻译,有问题请及时指正,谢谢。 Overview页 http://spark.apache.org/docs/latest/index.html Spark概述 Apache Spark 是一个快速的,分布式集群计算系统.它提供了高等级的针对 Java, Scala, Python and R的API接口, 他还是一个优秀的图处理引...

nutch+hadoop 配置使用

nutch+hadoop 配置使用 配置nutch+hadoop 1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoop core包以及相关配置 2,建立目录(根据自己喜好) /nutch /search       (nutch installation goes here) nutch安装到这里...

【Hadoop系列】linux SSH原理解析

本文中斜体加粗代表shell指令,操作环境 CentOS6.5 linux root免密码登录链接:【Hadoop系列】linux下 root用户免密码登录远程主机 ssh。 linux 非root用户免密码登录:XXXXXXX(暂未写好) Linux下,使用ssh协议登录远程计算机。让我们先来了解下什么是SSH。 一、什么是SSH?简单说,SSH是一种网...

Hadoop启动时出现Unrecognized option: jvm的问题(收集)

参考: 在ubuntu10.04和java1.6.0.24环境下出现的问题 最后发现是在hadoop/bin/hadoop中有如下一段shell: ? 1 2 3 4 5 6 7 <strong>CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode' if[[ $EUID...

精通shell编程--最后的总结

不得不说shell语法是丑陋的,操作是简单高效的,最后一次学习总结shell shell总结 字符串删除与替换等常见操作 ## 字符串长度 a=1234 echo "${#a}" expr length "${a}" ## 字符串 索引 expr index ${a} 23 # 拆分 2 3 一个个查找找到第一个匹配的就返回 ## 字符串 匹配 有问...

rsync命令详解

介绍 rsync命令是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。rsync使用所谓的“rsync算法”来使本地和远程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而不是每次都整份传送,因此速度相当快。 rsync是一个功能非常强大的工具,其命令也有很多功能特色选项,我们下面就对它的选项一一进行分析说明。 常用场景...

Windows环境下安装Hadoop+Hive的使用案例

 正文前先来一波福利推荐: 福利一: 百万年薪架构师视频,该视频可以学到很多东西,是本人花钱买的VIP课程,学习消化了一年,为了支持一下女朋友公众号也方便大家学习,共享给大家。 福利二: 毕业答辩以及工作上各种答辩,平时积累了不少精品PPT,现在共享给大家,大大小小加起来有几千套,总有适合你的一款,很多是网上是下载不到。 获取方式: 微信关注 精品3分钟...

Hadoop配置项整理(hdfs-site.xml)

name value Description dfs.default.chunk.view.size 32768 namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。 dfs.datanode.du.reserved 1073741824 每块磁盘所保留的空间大小,需要设置一些,主要是给非hdfs文件使用,默认是不保留...

kettle 连接Hadoop 遇错

kettle从windows中往hdfs中写文件 One 2016/07/19 14:14:53 - Spoon - 正在开始任务... 2016/07/19 14:14:53 - load_hdfs - 开始执行任务 2016/07/19 14:14:53 - load_hdfs - 开始项[Hadoop Copy Files] 2016/07/19...

wordCount的执行流程

  我们对于wordCount的这个流程,在清晰不过了,不过我们在使用spark以及hadoop本身的mapReduce的时候,我们是否理解其中的原理呢,今天我们就来介绍一下wordCount的执行原理,   1.首先我们都会这样子执行(wordCount执行在hadoop中)   val rdd = sc.textFile("hdfs://weekday...