spark parquet 从hdfs 上读 和写 scala 版本

摘要:
导入程序.apache.spark.SparkConfigimportorg.apache.sark.spark上下文导入程序.aapache.spark.SQLContextimportorg.apache.spark.sql.DataFrameimportorg.apache.park.sql.SaveModeobjectGenericLoadSave{def
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.SaveMode


object GenericLoadSave {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setAppName("GenericLoadSave")
        .setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
  
    //读取一个parquet文件
    val usersDF = sqlContext.read.format("parquet").load("hdfs://hadoop1:9000/input/users.parquet")

    usersDF.write.mode(SaveMode.Overwrite).format("parquet").save("hdfs://hadoop1:9000/output/namesAndFavColors_scala")  
    
    val tDF = sqlContext.read.format("parquet").load("hdfs://hadoop1:9000/output/namesAndFavColors_scala")
    tDF.show()
    
  }
}

免责声明:文章转载自《spark parquet 从hdfs 上读 和写 scala 版本》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇JS实现搜索模糊匹配Gradle 项目启动配置下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Hadoop Eclipse 插件制作以及安装

在本地使用Eclipse调试MapReduce程序,需要Hadoop插件,笔摘记录下制作安装过程。 准备工作(hadoop-2.6.0为例):   搭建好Hadoop环境   下载Hadoop安装包,解压到某个路径(D:hadoop-2.6.0)   下载 hadoop2x-eclipse-plugin包   安装jdk 、ant、eclipse 相关资源...

Java中实现Http请求并获取响应数据

目录 前言 方式一:功能实现类 java.net.HttpURLConnection 方式二:功能实现类 org.apache.http.client.methods.HttpGet 前言 在演示的功能代码中使用的请求http地址为:http://timor.tech/api/holiday/year/ 接口说明:获取指定年份或年月份的所有节...

Nginx 动静分离与负载均衡的实现

一、前提 企业中,随着用户的增长,数据量也几乎成几何增长,数据越来越大,随之也就出现了各种应用的瓶颈问题。 问题出现了,我们就得想办法解决,一般网站环境,均会使用LAMP或者LNMP,而我们对于网站环境的优化,除了对源代码进行优化、SQL慢查询优化 、SQL创建索引等之外,我们还可以对环境架构进行优化与扩展。 因此,我们引入了 Nginx 对站点实现负载均...

【原创】大数据基础之Benchmark(4)TPC-DS测试结果(hive/hive on spark/spark sql/impala/presto)

1 测试集群 内存:256GCPU:32Core (Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz)Disk(系统盘):300GDisk(数据盘):1.5T*1 2 测试数据 tpcds parquet 10g tpcds orc 10g 3 测试对象 hive-2.3.4 【set mapreduce.map.m...

Apache Web服务器安全配置全攻略

作为最流行的Web服务器,Apache Server提供了较好的安全特性,使其能够应对可能的安全威胁和信息泄漏。 Apache 服务器的安全特性 1、 采用选择性访问控制和强制性访问控制的安全策略 从Apache 或Web的角度来讲,选择性访问控制DAC(Discretionary Access Control)仍是基于用户名和密码的,强制性访问控制MAC...

php中流行的rpc框架详解

什么是RPC框架? 如果用一句话概括RPC就是:远程调用框架(Remote Procedure Call) 那什么是远程调用? 我的官方群点击此处。 通常我们调用一个php中的方法,比如这样一个函数方法: localAdd(10, 20),localAdd方法的具体实现要么是用户自己定义的,要么是php库函数中自带的,也就说在localAdd方法的代码实现...