Scala创建SparkStreaming获取Kafka数据代码过程

摘要:
我这里用的Scala,点击KafkaUtils进去后会看到这个类中有很多的方法,其中我们要找的是createStream方法,看看有哪些重载。我们把这个方法的解释赋值过来。

正文

首先打开spark官网,找一个自己用版本我选的是1.6.3的,然后进入SparkStreaming ,通过搜索这个位置找到Kafka,

Scala创建SparkStreaming获取Kafka数据代码过程第1张

点击过去会找到一段Scala的代码    

     import org.apache.spark.streaming.kafka._

     val kafkaStream = KafkaUtils.createStream(streamingContext, 
       [ZK quorum], [consumer group id], [per-topic number of Kafka partitions to consume])

如果想看createStream方法,可以值通过SparkStreaming中的 Where to go from here 中看到,有Java,Scala,Python的documents选择自己编码的一种点击进去。我这里用的Scala,点击KafkaUtils进去后会看到这个类中有很多的方法,其中我们要找的是createStream方法,看看有哪些重载。我们把这个方法的解释赋值过来。

defcreateStream(jssc:JavaStreamingContext,zkQuorum:String,groupId:String,topics:Map[String,Integer]):JavaPairReceiverInputDStream[String,String]

Create an input stream that pulls messages from Kafka Brokers. Storage level of the data will be the default StorageLevel.MEMORY_AND_DISK_SER_2.

       jssc

JavaStreamingContext object

       zkQuorum

Zookeeper quorum (hostname:port,hostname:port,..)

       groupId

The group id for this consumer

       topics

Map of (topic_name -> numPartitions) to consume. Each partition is consumed in its own thread

       returns

DStream of (Kafka message key, Kafka message value)

最后我们在IDEA中写Scala获取Kafka代码

  def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.appName(Constants.SPARK_APP_NAME_PRODUCT)
.getOrCreate()
val map = Map("topic" -> 1)
val ssc = new StreamingContext(spark.sparkContext, Seconds(5))
val createStream: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc, "hadoop01:9092,hadoop02:9092,hadoop03:9092", "groupId", map, StorageLevel.MEMORY_AND_DISK_SER)
val map1: DStream[String] = createStream.map(_._2)
}

简答的代码过程,因为还有一些后续的工作要做,所以只是简单的写了一些从Kafa获取数据的代码从官网查找的一个过程,也是怀着学习的态度与大家一起交流,希望大牛们多多指点。

            i want to take you to travel ,this is my current mood

免责声明:文章转载自《Scala创建SparkStreaming获取Kafka数据代码过程》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇常用运放选型一览表【转】ATA Secure Erase下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

MetadataCache更新

MetadataCache什么时候更新 updateCache方法用来更新缓存的。 发起线程 controller-event-thread controller选举的时候 CLASS_NAME METHOD_NAME LINE_NUM kafka/controller/KafkaController sendUpdateMetadata...

Kafka提交offset机制

在kafka的消费者中,有一个非常关键的机制,那就是offset机制。它使得Kafka在消费的过程中即使挂了或者引发再均衡问题重新分配Partation,当下次重新恢复消费时仍然可以知道从哪里开始消费。它好比看一本书中的书签标记,每次通过书签标记(offset)就能快速找到该从哪里开始看(消费)。 Kafka对于offset的处理有两种提交方式:(1) 自...

Kafka 权限管理实战(最全整理)

一、概述 1、Kafka的权限分类 1)、身份认证(Authentication):对client 与服务器的连接进行身份认证,brokers和zookeeper之间的连接进行Authentication(producer 和 consumer)、其他 brokers、tools与 brokers 之间连接的认证。 2)、权限控制(Authorizatio...

Scala入门系列(十二):隐式转换

引言 Scala提供的隐式转换和隐式参数功能,是非常有特色的功能。是Java等编程语言所没有的功能。它可以允许你手动指定,将某种类型的对象转换成其他类型的对象。通过这些功能可以实现非常强大而且特殊的功能。 Scala的隐式转换,其实最核心的就是定义隐式转换函数,即implicit conversion function。定义的隐式转换函数,只要在编写的...

搭建elk+logstash+kafka+filebeat日志收集平台

目录 前言 组件介绍 原理图 环境介绍 安装 日志收集与展示 前言 在日常的运维过程中,对系统日志和业务日志的处理比较重要,对于以后的数据分析、排查异常问题有很重的作用。今天就分享一个自己基于kafka+ELK+filebeat的日志记录分析平台。 组件介绍 Elasticsearch Elasticsearch(ES)是一个基于Lucen...

Kafka Manager安装部署及使用

 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。本文对其进行部署配置,并安装配置kafkatool对kafka进行监控、查询 一、kafka-manager 简介        为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kaf...