pyspark 通过 json 字符串 创建DataFrame

摘要:
1、开发环境python版本:3.6spark版本:2.3.1pyspark:2.3.12、脚本frompysparkimportSparkConf,SparkContextfrompyspark.sqlimportSQLContext,HiveContextfrompyspark.sql.typesimport*####1、从json文件读取数据,并直接生成DataFrame#######pat

1、开发环境

python版本:3.6

spark版本:2.3.1

pyspark:2.3.1

2、脚本

from pyspark import SparkConf,SparkContext
from pyspark.sql import SQLContext,HiveContext
from pyspark.sql.types import *
####1、从json文件读取数据,并直接生成DataFrame#######
path = "20180724141719.json"
df = sqlContext.read.json(path)
df.printSchema()
####################################
data_dict ={ "region": "cn", "env": "dev", "product": "snap"} schema =StructType([ StructField("region", StringType(), True), StructField("env", StringType(), True), StructField("product", StringType(), True)]) dslist = [] ## 空列表 dslist.append(data_dict) ## 使用 append() 添加元素
###2、通过json字符串生成DataFrame#############
myrdd =sc.parallelize(dslist) df =sqlContext.read.json(myrdd) df.printSchema() ####3、通过自定义schema和json字符串列表,生成DataFrame#######
df = sqlContext.createDataFrame(dslist,schema)
df.printSchema()
########################################################

免责声明:文章转载自《pyspark 通过 json 字符串 创建DataFrame》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇JS,jQuery获取select标签中选中值的方法Kendall Rank(肯德尔等级)相关系数下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

python之路 之一pyspark

pip包下载安装pyspark pip install pyspark  这里可能会遇到安装超时的情况   加参数  --timeout=100 pip   -default   -timeout=100     install -U pyspark  下面是我写的一些代码,在运行时,没什么问题,但是目前不知道怎么拿到rdd与dataframe中的值  f...

Python——rename更改Series和DataFrame的标签名(即列标签)

转载:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html >>> s = pd.Series([1, 2, 3]) >>> s 0 1 1 2 2 3 dtype: int64 >&g...

Spark学习进度11-Spark Streaming&Structured Streaming

Spark Streaming Spark Streaming 介绍 批量计算  流计算 Spark Streaming 入门  Netcat 的使用  项目实例 目标:使用 Spark Streaming 程序和 Socket server 进行交互, 从 Server 处获取实时传输过来的字符串, 拆开单词并统计单词数量, 最后打印出来每一个小批...

Pandas:让你像写SQL一样做数据分析

1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并schema化的2维结构化数据,可视作为Series...

Spark SQL 编程(七)

1. DataFrame 的创建 1.1 RDD 和 DataFrame 的区别 RDD 是一种弹性分布式数据集,Spark中的基本抽象。表示一种不可变的、分区储存的集合,可以进行并行操作 DataFrame是一种以列对数据进行分组表达的分布式集合, DataFrame等同于Spark SQL中的关系表。相同点是,他们都是为了支持分布式计算而设计...

Pandas dataframe数据写入文件和数据库

 Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作,DataFrame是一张多维的表,大家可以把它想象成一张Excel表单或者Sql表。之前这篇文章已经介绍了从各种数据源将原始数据载入到dataframe中,这篇文件介绍怎么将处理好的dataframe中的数据写入到文件和数据库中。 ...