Spark官方文档翻译(一)~Overview

摘要:
翻译Spark的官方文件。如果你有任何问题,请及时纠正。非常感谢。文档版本为2.3.1。Spark使用Hadoop客户端库访问HDFS和YARN。下载将预打包最新版本的Hadoop。Scala和Java用户可以与Maven集成。转到此页面,查看Spark是否可以在Windows和UNIX系统上运行。单机安装非常简单。安装java并配置java_HOME环境变量。Spark在Java 8+、Python 2.7+/3.4+和R3.1+中运行。Scala的API使用Scala 2.11。在Spark 2.2.0之后,不支持Java 7、Python 2.6和Hadoop 2.6.5。运行示例和ShellSpark提供了几个简单的小程序。Scala、Java、Python和R的示例位于Examples/src/main文件夹中。

Spark官方文档翻译,有问题请及时指正,谢谢。

Overview页

http://spark.apache.org/docs/latest/index.html

Spark概述

Apache Spark 是一个快速的,分布式集群计算系统.它提供了高等级的针对 Java, Scala, Python and R的API接口, 他还是一个优秀的图处理引擎. 它还支持一套高级的工具集:Spark SQL,Sql和结构化数据处理;

MLlib,机器学习;GraphX,图处理; 还有Spark Streaming.

下载

可以去网站下载页(http://spark.apache.org/downloads.html)下载。文档的版本是2.3.1.Spark 使用了Hadoop的客户端库来访问HDFS和YARN。下载会预先打包一个最新的Hadoop版本。用户可以下载Hadoop包然后通过Spark的环境变量使用Hadoop的各种版本。Scala和Java的用户可以用Maven集成。以后Python的用户可以用Pypi安装。

想自己编译去这页看看(http://spark.apache.org/docs/latest/building-spark.html)

Spark 可以运行在Windows 和UNIX(比如Linux, Mac OS)系统。单机安装很简单,装java,配置JAVA_HOME环境变量。

Spark 运行在Java 8+, Python 2.7+/3.4+ ,R 3.1+.Scala 的API使用Scala 2.11。你需要使用Scala 的版本(2.11.x)来兼容。

Spark 2.2.0以后就不支持Java 7, Python 2.6和 Hadoop 2.6.5以前的版本了。

2.3.0以后就不支持Scala 2.10了。

运行例子和Shell

Spark 提供了几个简单的小程序。Scala, Java, Python 、R的例子在examples/src/main文件夹下。运行java或scala简单程序,在高一级目录执行 bin/run-example <class> [params] (更相信的spark提交指令访问http://spark.apache.org/docs/latest/submitting-applications.html),比如:

./bin/run-example SparkPi 10

你也可以用Scala shell与spark交互,这样是学习框架最好的方式。
./bin/spark-shell --master local[2]
--master 这个设置可以查看http://spark.apache.org/docs/latest/submitting-applications.html#master-urls
local是一个线程 local[N]是多个线程 可以用local作为测试 获得全部设置用 --help
Spark也提供了python api 用python解释器与spark进行交互 bin/pyspark
./bin/pyspark --master local[2]
例子也有:
./bin/spark-submit examples/src/main/python/pi.py 10
1.4以后也提供了R api
./bin/sparkR --master local[2]
例子:./bin/spark-submit examples/src/main/r/dataframe.R

集群启动
Spark集群模式可以在这查看 http://spark.apache.org/docs/latest/cluster-overview.html
Spark可以独立运行 ,也可以几个存在的管理者协作运行,现在提供了这几种部署方式:

可以查阅什么呢(官网菜单翻译)

Programming Guides:编程指南

API Docs:

Deployment Guides:部署指南

Other Documents:其他文档

External Resources:外部资源

免责声明:文章转载自《Spark官方文档翻译(一)~Overview》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Foobar2000 使用说明【转】Android APK的数字签名的作用和意义下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

ubuntu apache2 端口的改变

Apache 服务经常由于ISP将TCP默认80端口封锁而无法正常运行,这时候就需要更改默认80端口为一个指定的端口。比如修改为8001. 1.进入/etc/apache2/ports.conf文件,按照下面红色的部分修改: #######################分割线##################################### #...

Python标准库存储对象(pickle包,cPickle包)

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢! 在之前对Python对象的介绍中 (面向对象的基本概念,面向对象的进一步拓展),我提到过Python“一切皆对象”的哲学,在Python中,无论是变量还是函数,都是一个对象。当Python运行时,对象存储在内存中,随时等待系统的调用。然而...

Python 相对导入attempted relative import beyond top-level package

ValueError: attempted relative import beyond top-level package 假设有如下层次包目录 1 project/ 2 __init__.py 3 mypackage/ 4 __init__.py 5 A/ 6 __ini...

服务器压测、并发数、配置与资源消耗的关系研究

Linux下 Apache 下ab压力测试 1.ab的简介    ab是apachebench命令的缩写。    ab是apache自带的压力测试工具。ab非常实用,它不仅可以对apache服务器进行网站访问压力测试,也可以对或其它类型的服务器进行压力测试。比如nginx、tomcat、IIS等 2.ab的原理    ab的原理:ab命令会创建多个并发访问...

maven私服-配置本地私服环境之jar包下载环境搭建

我们前面已经搭建好环境了,就是maven里没有代码,如何导入jar包管理jar包 maven-public仓库组:已有 maven-central代理仓库:从直接代理maven中央仓库,修改为代理阿里云仓库 maven-snapshots宿主仓库:已有 maven-releases宿主仓库:已有 3rd-party仓库:需要手动创建 1.repositor...

《图解Spark:核心技术与案例实战》介绍及书附资源

本书中所使用到的测试数据、代码、安装包及本书附录放在百度盘提供下载 ,链接: https://pan.baidu.com/s/1LP6PKGzIWQzF8e-dTklxkg 提取码: it28   为什么要写这本书 在过去的十几年里,由于计算机普遍应用和互联网的普及数据呈现了爆发式增长,在这个背景下Doug Cutting受到谷歌两篇论文(GFS和MapR...