alluxio2.0特性-预览

摘要:
特别是元数据管理被认为是Hadoop的弱点,但Alluxio应该将元数据管理变成一种优势。更友好的数据工程界面Alluxio的创建重点是基于Hadoop的计算工作负载。Alluxio应该通过为数据科学家提供本地已知API同时减少所需的数据工程来大大简化这一过程。alluxio.master.metastore可以配置为仅更改为堆。使用Alluxio2.0,用户可以使用Alluxio的任何版本连接到多个HDFS集群,并统一数据访问。
项目地址

https://github.com/Alluxio/alluxio/tree/branch-2.0-preview

2.0版本-构思和设计

支持超大规模数据工作负载

Alluxio作为计算和存储之间的数据编排层,使数据移动并且可以跨多个不同的存储系统访问:HDFS,对象存储,网络附加存储,随着时间的推移,Alluxio需要的元数据支持规模 提供可以轻松超过最大的Hadoop部署。 特别是元数据管理被认为是Hadoop的弱点,但Alluxio应该将元数据管理变成一种优势。

更友好的数据工程界面

Alluxio的创建重点是基于Hadoop的计算工作负载。 但是多年来,数据密集型计算工作负载的数量和类型已经爆炸式增长,并且在现有数据或新数据存储系统上实现这些工作负载的数据编排和工程设计非常重要。 特别是,在机器学习和深度学习培训之前,需要许多数据工程,包括手动数据移动。 Alluxio应该通过为数据科学家提供本地已知API同时减少所需的数据工程来大大简化这一过程。

使存储和计算更加分离

整个企业中的数据孤岛只会随着跨多个Hadoop集群的数据而增加,越来越多地存在于许多不同的对象存储中,并且在一些情况下存储在内部或公共云中。 这使得计算与数据分解变得更加困难,因为数据处理被移动到与存储数据的位置不同的位置时,数据位置和访问受到严重影响。 Alluxio应该通过抽象存储同时使数据更易于访问,继续实现计算和存储的分离。

2.0版本-进步和功能

Alluxio 2.0包含许多增强功能,以支持项目的设计目标,所有开源都将包含在Community Edition中!

支持超大规模数据工作负载

  • 支持超过10亿个文件 - 2.0引入了分层元数据管理的新选项,以支持具有超过10亿个文件的单个群集部署。我们使用RocksDB进行非堆存储,现在是默认的。热数据的元数据继续存储在堆上的进程内存中,而其余元数据由进程内存外的Alluxio管理。 alluxio.master.metastore可以配置为仅更改为堆。
  • 高度分布式数据服务 - 2.0引入了Alluxio作业服务,这是一种分布式集群服务,现在可以使用复制,持久性,交叉存储移动和分布式负载等数据操作,从而实现高性能和大规模扩展。看一下Alluxio支持的所有文件系统API。
  • 增强数据局部性的自适应复制 - 为自动管理的Alluxio中存储的数据副本配置范围的新功能。 alluxio.user.file.replication.max和alluxio.user.file.replication.min可用于指定范围。可在此处找到所有用户配置的完整列表
  • 嵌入式日志的高可用性 - 文件和对象元数据的新容错和高可用性模式称为嵌入式日志,它使用RAFT一致性算法,独立于任何其他外部存储系统。这对于抽象对象存储特别有用。了解如何在此配置嵌入式日记

在任何存储上启用机器学习和深度学习工作负载

机器学习和深度学习框架需要从Hadoop和对象存储中提取数据,这通常是一个非常手动且耗时的过程。

  • Alluxio POSIX API Alluxio的FUSE功能支持POSIX兼容API,因此TensorFlow,Caffe和其他基于Python的模型等框架可以使用传统的文件系统访问通过Alluxio直接访问任何存储系统中的数据。了解有关POSIX API的更多信息。

更好的存储抽象,实现完全独立和弹性的计算

  • 支持不同版本的HDFS集群 - 数据的爆炸性增长导致企业拥有许多数据孤岛,包括跨多个不同版本的多个Hadoop集群。目前,跨这些集群的统一访问非常困难。使用Alluxio 2.0,用户可以使用Alluxio的任何版本连接到多个HDFS集群,并统一数据访问。在此处查找支持的HDFS版本列表。
  • 与Hadoop主动同步 - 新功能与HDFS iNotify集成,可更新存储在Hadoop中的文件所发生的任何数据和元数据更改,允许应用程序通过Alluxio访问数据,以主动接收最新更新。

原文地址:https://www.alluxio.com/blog/announcing-alluxio-20-preview-enabling-hyper-scale-data-workloads-in-the-cloud

免责声明:文章转载自《alluxio2.0特性-预览》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇存储过程语法python之路 django基础下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

数据仓库架构设计的概念

1、数据仓库所处环节 在一个成体系、结构化的数据应用场景下,数据和处理有四个层次: 操作层、数据仓库层、部门/数据集市层、个体层。 操作层 操作层是指为具体业务提供实时响应的各个业务系统,比如常见的订单系统、ERP、用户中心等等具体业务系统,这些系统中的数据一般都是存入关系型数据库。它们是数据的来源。 数据仓库 数据仓库收集操作层各个业务系统中的数据,进...

2017.06.29数据挖掘基础概念第二.三章

第二章21、研究的属性类型标称属性:值是一些符号或事物的名称,代表某种类型、编码或状态二元属性:是一种标称属性,只有两个类别或状态,又称布尔属性序数属性:是一种属性,其可能的值之间具有有意义的序或秩评定,但是相续值之间的差是未知的数值属性:是定量的,即他是可度量的量,可用整数或实数值表示(区间和比率标度)22、数据散布常见的度量量(数据如何分散的方法/识别...

Android系统Google Maps开发实例浅析

     Google Map(谷歌地图)是Google公司提供的电子地图服务。包括了三种视图:矢量地图、卫星图片、地形地图。对于Android系统来说,可以利用Google提供的地图服务来开发自己的一些应用。Google Map的服务体现在两个方面:地图API和位置API。使用Android Maps API(地图API)和Android Locatio...

ASP.NET输出JSON格式数据

最近在开发Windows8 Metro App,使用JavaScript和HTML开发环境。所以操作数据绑定都是使用JSON格式数据。后台使用的是ASP.NET,因为项目相对较小,所有后台没有使用数据库,使用的XML来保存数据。前台需要请求后台返回JSON格式的数据,比如要求返回一个eventslist,后台操作XML的方法省略。主要讨论如何使用Hasht...

解决ajax异步请求数据后swiper不能循环轮播(loop失效)问题、滑动后不能轮播的问题。

问题描述: 1、我使用axios异步请求后台的图片进行渲染后不能实现循环轮播,也就是loop失效,但是静态写死的情况下不会出现这种问题。 2、 分析: swiper的机制是:初始化的时候将swiper-warpperslide类下的最后一个swiper-slide块克隆到第一个的位置,将第一个swiper-slide块克隆岛最后一个的位置,然后自动扫描sw...

Storm实战:在云上搭建大规模实时数据流处理系统(Storm+Kafka)

在大数据时代,数据规模变得越来越大。由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集、管理和处理。本文主要介绍如何在阿里云上使用Kafka和Storm搭建大规模消息分发和实时数据流处理系统,以及这个过程中主要遭遇的一些挑战。实践主要立足建立一套汽车状态实时监控系统,可以在阿里云上立即进行部署。   实时大数据处理...