【基础组件2】Flume入门(二)Agent

摘要:
Flume og工作模式采用多主机模式。为了确保配置数据的一致性,Flume引入ZooKeeper来保存配置数据。ZooKeeper本身可以确保配置数据的一致性和高可用性。此外,ZooKeeper可以在配置数据更改时通知FlumeMaster节点。FlumeMasters使用八卦协议来同步数据。Flume ng最明显的变化是取消了集中管理配置的master和Zookeeper,成为一个纯粹的传输工具。Flume ng的另一个主要区别是,读入数据和写入数据由不同的工作线程处理。在Flumeog中,读线程也执行写任务。如果写入速度慢,则会阻碍Flume接收数据的能力。

工作方式

Flume-og采用了多Master的方式。为了保证配置数据的一致性,Flume引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。
Flume-ng最明显的改动就是取消了集中管理配置的 Master 和 Zookeeper,变为一个纯粹的传输工具。Flume-ng另一个主要的不同点是读入数据和写出数据由不同的工作线程处理(称为 Runner)。 在 Flume-og 中,读入线程同样做写出工作(除了故障重试)。如果写出慢的话(不是完全失败),它将阻塞 Flume 接收数据的能力。这种异步的设计使读入线程可以顺畅的工作而无需关注下游的任何问题。
 

优势

2. 当收集数据的速度超过将写入数据的时候,也就是当收集信息遇到峰值时,这时候收集的信息非常大,甚至超过了系统的写入数据能力,这时候,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据.
 

结构

编辑
Agent主要由:source,channel,sink三个组件组成.
Source:
从数据发生器接收数据,并将接收的数据以Flume的event格式传递给一个或者多个通道channel,Flume提供多种数据接收的方式,比如Avro,Thrift,twitter1%等
Channel:
channel是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着桥梁的作用,channel是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source和sink链接. 支持的类型有: JDBC channel , File System channel , Memory channel等.
sink:
sink将数据存储到集中存储器比如Hbase和HDFS,它从channels消费数据(events)并将其传递给目标地. 目标地可能是另一个sink,也可能HDFS,HBase.

免责声明:文章转载自《【基础组件2】Flume入门(二)Agent》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇ExtJs6自定义scss解决actionColum中iconCls图标不能调样式的问题[记录点滴] 一个解决Lua 随机数生成问题的办法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

在数据中心利用AI的5个理由

  在数据中心利用AI的5个理由   人工智能已经存在了很长一段时间,其不断发展以其提升性能和降低成本的质量破坏了不同的行业和领域。另一方面,我们正在见证数据科学的兴起,它能够利用大量的数据,进行处理,分析并使其有意义。不久之前,不可能解释非结构化数据,现在借助大数据技术,组织看到了从实施庞大数据收集和分析中获得的巨大收益。   这意味着将部署大型数据中心...

2017.06.29数据挖掘基础概念第二.三章

第二章21、研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型、编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22、数据散布常见的度量量(数据如何分散的方法/识别...

超过4000长度的字符串如何添加到oracle数据库中

string conn = "Data Source=客户端指定连接字符串;User ID=user;Password=mima"; OracleConnection Con = new System.Data.OracleClient.OracleConnection(conn); Con.Open(); string cmdText = "INS...

生信数据下载(转)

需要了解的知识点: 测序仪原理 一、数据下载 生物信息学常见的数据下载,包括基因组,gtf,bed,注释 http://www.biotrainee.com/thread-857-1-1.html 各版本对应关系: http://www.bio-info-trainee.com/1469.html(生信技能树) 测试数据及参考基因组准备: http://w...

拓端数据tecdat|R语言贝叶斯线性回归和多元线性回归构建工资预测模型

原文链接:http://tecdat.cn/?p=21641  工资模型 在劳动经济学领域,收入和工资的研究为从性别歧视到高等教育等问题提供了见解。在本文中,我们将分析横断面工资数据,以期在实践中使用贝叶斯方法,如BIC和贝叶斯模型来构建工资的预测模型。 加载包 在本实验中,我们将使用dplyr包探索数据,并使用ggplot2包进行数据可视化。我们也可...

MySQL 如何存储长度较大的varchar与blob

本文同时发表在https://github.com/zhangyachen/zhangyachen.github.io/issues/96 最近,在工作中遇到了MySQL中如何存储长度较长的字段类型问题,于是花了一周多的时间抽空学习了一下,并且记录下来。 MySQL大致的逻辑存储结构在这篇文章中有介绍,做为基本概念:InnoDB 逻辑存储结构 注:文中所...