Kafka入门学习(一)

摘要:
简单地说,你可以把卡夫卡看作是一大卷可以按顺序写的磁带。您可以随时倒带,并将其快进到某个时间点进行播放*卡夫卡的动态容量扩展目前通过zookeeper完成。kafka集群中的消息由主题组成。该图概括了kafka集群的整体情况。在途中,kafka集群由三台机器组成。当然,实际情况可能更多。在图中,2.kafka集群被配置为从前端应用程序生成消息,后端通过各种异构消费者订阅消息。

用简单的话来说,你可以把Kafka当作可顺序写入的一大卷磁带, 可以随时倒带,快进到某个时间点重放。

Kafka入门学习(一)第1张

====常用开源分布式消息系统

Kafka入门学习(一)第2张

*集群:多台机器组成的系统叫集群。

*ActiveMQ还是支持JMS的一种消息中间件。

*阿里巴巴metaq,rocketmq都有kafka的影子。

*kafka的动态扩容目前是通过zookeeper来完成的。

====kafka定义及使用背景

是一个分布式消息系统,由Linkedln使用Scala编写,用作Linkedln的活动流(Activity Stream)

和运营数据处理管道(Pipeline)的基础,具有高水平扩展和高吞吐量

应用领域:已经被多家不同类型的公司作为多种类型的数据管道和消息系统使用,如:淘宝、支付宝、百度、twitter等。

目前越来越多的开元分布式处理系统都支持与Kafka集成,如

Apache flume(用于日志收集)

Apache Storm(用于实时数据处理)

Spark(用于内存数据处理)

elasticsearch(用于全文检索)

====kafka相关概念

1)AMPQ协议(即Advanced Message Queuing Protocol)

详细参考博客:http://blog.csdn.net/zhangxinrun/article/details/6411841

Kafka入门学习(一)第3张

--消费者(Consumer):从消息队列中请求消息的客户端应用程序;

--生产者(Producer):从broker发布消息的客户端应用程序;

--APQP服务器端(broker):用来接收生产者发送的消息并将这些消息路由给服务器中的队列;

2)kafka支持的客户端语言

kafaka客户端支持当前大部分主流语言,包括:C、C++、Erlang、Java、.net、perl、PHP、Python、Ryby、Go、JavaScript。

可以使用以上任何一种语言和kafka服务器进行通信(即编写自己的consumer和producer程序

3)kafka的架构

Kafka入门学习(一)第4张

和传统的分布式消息队列一样,是由生产者向kafka集群生产消息、消费者从kafka集群订阅消息z这样的架构所组成。

kafka集群中的消息是按照主题(或者说Topic)来进行组成的。

--主题(Topic):一个主题类似新闻中的体育、娱乐、教育等分类概念,在实际工程中通常一个业务一个主题。

--分区(Partition):一个Topic中的消息数据按照多个分区组织,分区是kafka消息队列组织的最小单位,一个分区可以看做是一个FIFO(先进先出)队列;kafka分区是提高kafka性能的关键手段。

Kafka入门学习(一)第5张

这张图在整体上对kafka集群进行了概要,途中kafka集群是由三台机器(Broker)组成,当然,实际情况可能更多。

相应的有3个分区,Partition-0~Partition-2,图中能看到每个分区的数据备份了2份。备份的数量可以通过kafka的配置参数来进行配置。在图中配置成了2.

kafka集群从前端应用程序(producer)生产消息,后端通过各种异构的消费者来订阅消息。

kafka集群和各种异构的生产者、消费者都使用zookeeper集群来进行分布式协调管理和分布式状态管理、分布式锁服务的。

*备份(Replication):为了保证分布式可靠性,kafka0.8开始对每个分区的数据进行备份(不同Broker上),防止其中一个Broker宕机造成分区数据不可用。

====zookeeper集群搭建

参考博客:http://www.cnblogs.com/ggjucheng/p/3352591.html

  • 软件环境:

1)Linux服务器一台、三台、舞台(2*n+1台)。

问:是否可以用偶数台来搭建?

答:不一定,但是没有必要。根据zookeeper的工作原理,只要有超过半数以上存活,就可以对外提供服务。奇数方便判断“半数存活”。

2)JDK(我这里选择jdk-7u80-linux-x64.rpm)

3)zookeeper(我这里选择zookeeper-3.4.6.tar.gz,kafka在该版本上进行了大量测试,并修复了大量Bug)

  • JDK安装

(省略)

环境变量可以修改两个文件

1)/etc/profile:对所有用户都有效的。

2)~/.bashrc:代表的是当前用户。

  • zookeeper安装

1)解压缩:tar -zxvf zookeeper-3.4.6.tar.gz

2)配置文件:

--zoo.cfg文件的配置

zoo_sample.cfg是zk官方为我们提供的样本配置文件。

需要以它为副本复制一个zoo.cfg文件。zoo.cfg中需要配置以下内容:

•dataDir:存放数据

•dataLogDir:存放日志和快照

•server.1=<host>:<Master和Slave之间的通讯端口。默认为2888>:<Leader选举的端口。默认3888>。

集群中的每台机器都需要感知整个集群是由哪几台机器组成的,在配置文件中,可以按照这样的格式,每行写一个机器配置:server.id=host:port:port。

关于这个id,我们称之为Server ID,标识host机器在集群中的机器序号,在每个ZK机器上,我们需要在数据目录(数据目录就是dataDir参数指定的那个目录)下创建一个myid文件,

myid中就是这个Server ID数字。

配置之后如下:

Kafka入门学习(一)第6张

*zkdata和zkdatalog是新建的文件夹。用来存放数据和Log。

*dataLogDir这个属性如果不进行配置,将默认将zk事务日志和快照存放到dataDir下面,会严重影响性能。

*ip地址可以通过hostname -i来查看。

--myid的配置

可以通过echo命令来创建myid文件。命令:echo "1" > myid

Kafka入门学习(一)第7张

3)启动zookeeper

启动方法:./zkServer.sh start

====kafka集群搭建

  • 软件环境

Linux服务器一台或多台

已经搭建好的zookeeper集群

kafka_2.9.2-0.8.1.1

  • kafka安装

1)解压缩kafka压缩包:tar -zxvf kafka_2.9.2-0.8.1.1

2)修改配置文件。kafka的配置文件很多,我们重点关注server.properties

Kafka入门学习(一)第8张

具体配置内容请参考官方网站的配置:http://kafka.apache.org/documentation.html#brokerconfigs

以及中文博客:http://www.cnblogs.com/quchunhui/p/5356720.html

我这里配置了一下几项:

###Socket Server Settings###

port=9092

host.name=192.168.93.128

###Log Basics###

log.dirs=/opt/kafka_2.9.2-0.8.1.1/kafkalog

###Log Retention Policy###

message.max.bytes=5048576

default.replication.factor=2             //kafka集群保存消息的副本数

replica.fetch.max.bytes=5048576    //取消息的最大字节数

###Zookeeper###

zookeeper.connect=192.168.93.128:2181

  • kafka启动

后台启动命令:./kafka-server-start.sh -daemon ../config/server.properties

使用jps命令查看进程是否存在,以验证是否正确启动。

  • 验证是否搭建正确

(1)首先尝试创建一个topic
./kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

(2)查看所有的topic

./kafka-topics.sh --list --zookeeper localhost:2181

(3)启动一个consumer

./kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

(4)向consumer发送消息

./kafka-console-producer.sh --broker-list 192.168.93.129:9092 --topic test

(5)查看创建的topic

./kafka-topics.sh --describe --zookeeper 192.168.93.129:2181 --topic test

免责声明:文章转载自《Kafka入门学习(一)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇hadoop集群的搭建与配置(2)元素上下、左右滚动插件,固定dom结构。基于jQuery,2009年下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

针对负载均衡集群中的session解决方案的总结

在日常运维工作中,当给Web站点使用负载均衡之后,必须面临的一个重要问题就是Session的处理办法,无论是PHP、Python、Ruby还是Java语言环境,只要使用服务器保存Session,在做负载均衡时都需要考虑Session的问题。 通常面临的问题 1 2 3 4 5 6 7 8 从用户端来解释,就是当一个用户第一次访问被负载均衡代理到后端...

1.kafka

什么是Kafka 1.Apache Kafka是一个开源消息系统,由Scala写成。 2.Kafka是一个分布式消息队列。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。 3.无论是kafka集群,还是cons...

在MDK中使用 printf 函数

microlib 提供了一个有限的 stdio 子系统,它仅支持未缓冲的 stdin、stdout 和 stderr。 这样,即可使用 printf() 来显示应用程序中的诊断消息。 要使用高级 I/O 函数,您必须提供自己实现的以下基本函数,以便与您自己的 I/O 设备配合使用。 fputc()  为所有输出函数实现此基本函数。 例如,fprintf(...

kafka可视化客户端工具(Kafka Tool)的基本使用

1、下载 下载地址:http://www.kafkatool.com/download.html 2、安装 根据不同的系统下载对应的版本,我这里kafka版本是1.1.0,下载kafka tool 2.0.1。 双击下载完成的exe图标,傻瓜式完成安装。 3、简单使用 kafka环境搭建请参考:CentOS7.5搭建Kafka2.11-1.1.0集...

spark教程(14)-共享变量

spark 使用的架构是无共享的,数据分布在不同节点,每个节点有独立的 CPU、内存,不存在全局的内存使得变量能够共享,驱动程序和任务之间通过消息共享数据 举例来说,如果一个 RDD 操作使用了驱动程序中的变量,spark 会将这个变量的副本和 task 一起发送给 executor 中的执行者,对该变量的更新只存在于 task 的内部,并不会回传给驱动程...

Redis单个分片高可用&amp;amp;哨兵集群

前面的多个redis节点,都是一个节点存储一个分片的信息,如果单个节点宕机,会导致这个分片的数据未命中,这就需要实现单个分片的高可用,通过配置多个从节点来backup主节点。另外主从节点之间是没有一个监听者的,主节点宕机后,从节点不会知道自己有上位的机会,redis提供的哨兵就是一个监听者的角色,它可以实现主从的故障转移。 单个分片高可用 实现单个分片高可...