【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取

摘要:
参考链接:https://www.cnblogs.com/momoyan/p/9614635.htmlhttps://blog.csdn.net/weixin_38441544/article/details/82853651http://www.zhyea.com/2018/07/12/druid-Historial-broker-boot-failed.html参考课程:https://ww

参考链接:

https://www.cnblogs.com/momoyan/p/9614635.html

https://blog.csdn.net/weixin_38441544/article/details/82853651

http://www.zhyea.com/2018/07/12/druid-historical-broker-boot-failed.html

参考课程:

https://www.imooc.com/video/20024     慕课网

Druid支持对海量数据聚合存储,聚合查询

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第1张

一、OLTP(数据操作)和OLAP(数据分析)系统的区别

Druid主要用于OLAP 数据分析,提供决策,仅支持查询

MySQL主要用于OLTP 数据操作,支持数据的增删查改,实时修改,支持事务

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第2张

二、druid的应用场景

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第3张

三、druid基本特点

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第4张

四、OLAP系统方案对比

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第5张

五、druid的架构

参考课程:https://www.imooc.com/video/19660

metadata 元数据,存在mysql中

deep storage , 存在hdfs中

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第6张

 六、datasource, chunk, segment  druid的数据结构

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第7张

七、druid集群部署

1.官网下载安装包

https://druid.apache.org/downloads.html

2.参考教程:https://www.imooc.com/video/19661

八、druid 数据摄取配置

overlord节点:发布任务

middlemanager节点:生产数据

historical节点:加载数据

broker节点:接收客户端的查询请求

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第8张

 【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第9张

九、Apache Druid 使用HDFS 构建离线数据摄取

需要从 mapreduce中摄取数据

此外 hdfs也可以作为druid的深度存储

十、Apache Druid 使用Kafka 构建实时数据摄取

1.kafka简介

consumer     消费者

consumer group   消费者组:不同的消费者组,互不影响,A组消费了topic 111的消息后,B组也可以去消费topic 111的消息

                                                同一个消费者组里的消费者,有影响,若消费者数小于或者等于partition数,则一个消费者消费一个或者多个partition

                                                                                                             若消费者数大于partition数,则有消费者消费不了消息,没有消息消费

                                                 就是同一个消费者组的消费者,会消费不同partition的消息,消费了就没了,不能重复消费

topic      不同类型的消息

partiton 分区,为了提高并行度

              某些topic的消息多,就可以多设置几个partition, 提高并行度,

                                 消息少,则可少设置几个partition

cosumer_offset  偏移量 消费了就会把偏移量返回给broker

2. kafka配置参考:https://www.imooc.com/video/19665

【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取第10张

3.使用kafka 构建实时数据摄取

参考:https://www.imooc.com/video/19666

免责声明:文章转载自《【基础组件18】Apache Druid 0.14入门(一)简介、集群部署、使用kafka 构建实时数据摄取》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇应用三菱GX Developer编程软件编写SFC顺序功能图的方法5-6下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Hadoop平台基本组成

1、Hadoop系统运行于一个由普通商用服务器组成的计算集群上,能提供大规模分布式数据存储资源的同时,也提供了大规模的并行化计算资源。 2、Hadoop生态系统 3、MapReduce并行计算框架     MapReduce并行计算框架是一个并行化程序执行系统。它提供了一个包含Map和Reduce两个阶段的并行处理模型和过程,提供了一个并行化编程模型和接...

VMware vCenter Server6.5安装及群集配置介绍

借助VMware vCenterServer,可从单个控制台统一管理数据中心的所有主机和虚拟机,该控制台聚合了集群、主机和虚拟机的性能监控功能。VMware vCenterServer使管理员能够从一个位置深入了解虚拟基础架构的集群、主机、虚拟机、存储、客户操作系统和其他关键组件等所有信息。 准备环境和工具: 1、 一台ESXi6.5主机; 2、准备一台W...

Nginx配置https兼容http

现象 如果一个https站点里面有引用一些http的静态资源,图片可以正常加载,但是js文件、css文件就会加载失败,如下图: 原因 为了解释这个问题,首先要理解一下Mixed Content的概念:HTTPS 网页中加载的 HTTP 资源被称之为 Mixed Content(混合内容),不同浏览器对 Mixed Content 有不一样的处理规则。 忽...

Ubuntu常用软件安装

1.搜狗拼音输入法安装 https://ywnz.com/linuxjc/2891.htmlhttps://cloud.tencent.com/developer/article/1341770 2.谷歌安装: wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd6...

Jupyter notebook

原文链接: 如何安装jupyter_notebook https://www.jianshu.com/p/91365f343585 Jupyter_notebook的命令用法 https://www.cnblogs.com/lhuser/p/8441378.html Markdown语法 https://www.jianshu.com/p/30a3108e...

搭建Loki、Promtail、Grafana轻量级日志系统(centos7)

需求 公司项目采用微服务的架构,服务很多,每个服务都有自己的日志,分别存放在不同的服务器上。当查找日志时需要分别登录不同的服务器,有大量的请求的情况下,在日志文件中查找信息十分困难。想要搭建一个日志系统,ELK分布式日志系统对于中小型公司来说开发维护成本太高,经过调研,选择Loki轻量级日志系统。 Loki简介 Loki 是一个水平可扩展,高可用性,多租户...