HadoopDB:混合分布式系统

摘要:
HadoopDB是Mapreduce和传统关系数据库的结合,以充分利用RDBMS的性能以及Hadoop的容错和分布式特性。本文是HadoopDB论文的总结。不可避免地会掺杂一些不成熟的想法。有关更多详细信息,请参阅原始论文HadoopDB:MapReduce和DBMS技术用于分析工作负载的体系结构混合背景PB级数据分析系统能力要求1。性能:节省成本。慢节点的任务交付给快节点执行4:Hive的HQLAdoopDB集成了前两者,并在系统级别进行了改进,而不仅仅是在语言和接口级别。

HadoopDB 是一个 Mapreduce 和传统关系型数据库的结合方案,以充分利用 RDBMS 的性能和 Hadoop 的容错、分布特性。2009 年被 Yale 大学教授 Abadi 提出,继而商业化为 Hadapt,据称从 VC 那儿拉到了 10M 刀投资。

本文是对 HadoopDB 论文的总结。其中不免掺杂些自己的不成熟想法,更详细的内容,还请参见原论文 HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads

背景

PB 级数据分析系统的能力要求

  • 1.性能:节省开销(时间、资金)。
  • 2.容错:数据分析系统(即使有故障节点也能顺利工作) 不同于 事务型的系统的容错(从故障中无损的恢复)。节点故障时,原来的查询操作不需要重启。
  • 3.在异构型环境中运行的能力。即使所有机器硬件一样,但某些机器在某些时候可能因为软件原因、网络原因也会性能降低。分布式操作时,要防止木桶效应。
  • 4.活的查询接口:商业化的数据分析一般建立在 SQL 查询上,UDF 等 non-SQL 也是需要的。
并行数据库

满足 1,4:利用分表的方式,扩散到多个节点。一般情况下节点最多为几十个,原因:1.每增加一个节点,失败率增加;2.并行数据库假设各个机器都是同质化的,但这往往不太可能

MapReduce

满足 2,3,4:Map - repartition - Reduce 原为非结构化数据,但也可以适用结构化数据。

  • 2:(错误节点)动态的规划节点执行任务,将错误节点任务发放给新节点。并在本地磁盘做 checkpoint 存储。
  • 3:(拖后腿的节点)节点间冗余的执行。执行慢的节点的任务交付给速度快的节点执行
  • 4:Hive 的 HQL
HadoopDB

融合了之前两者,做出系统层面的改进,而不仅仅是语言和接口层面。

这三个解决方案对 4 个指标的关系如下图:

alt compare

架构

如图 alt framework

组件介绍

Databse Connector:
  • 作用

    hadoopTask <-通信-> Database on Node。节点上的 DB 类似于 Hadoop 中的数据源 HDFS

  • 实现

    扩展了 Hadoop 的 InputFormat

Catalog:
  • 作用

    1.链接参数如数据库位置,驱动类和证书; 2.一些元数据如数据簇中的数据集,副本的位置,数据的划分。

  • 实现

    HDFS 上的 XML。希望做成类似于 Hadoop 的 namenode。

Data Loader
  • 作用

    将数据合理划分,从 HDFS 转移到节点中的本地文件系统

  • 实现

    global hasher:分配到不同节点 local hasher:继续划分为不同 chunks

SQL to MapReduce to SQL (SMS) Planner
  • 作用

    将 HiveQL 转化为特定执行计划,在 hadoopDB 中执行。原则是尽可能的讲操作推向节点上的 RDBMS 上执行,以此提高执行效率。

  • 实现

    扩展 Hive: 1.执行查找前,用 catolog 的信息更新 Hive 的 metastore,定向到节点数据库的表 2.执行前,决定划分的键;将部分查询语句推到节点的数据库中执行。

示例

示例参见下文的 slides

总结

对 hadoopDB 的一些看法:

  • 其数据预处理代价过高:数据需要进行两次分解和一次数据库加载操作后才能使用;
  • 将查询推向数据库层只是少数情况,大多数情况下,查询仍由Hive 完成.因为数据仓库查询往往涉及多表连接,由于连接的复杂性,难以做到在保持连接数据局部性的前提下将参与连接的多张表按照某种模式划分;
  • 维护代价过高.不仅要维护Hadoop 系统,还要维护每个数据库节点;
  • 目前尚不支持数据的动态划分,需要手工一次划分好

slides:

下载 slides,请猛戳这里

参考资料

免责声明:文章转载自《HadoopDB:混合分布式系统》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇OA项目CRUD和单元测试(一)php防止表单重复提交下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

java面试题之----jdbc中使用的设计模式(桥接模式)

1.JDBC(JavaDatabase Connectivity) JDBC是以统一方式访问数据库的API. 它提供了独立于平台的数据库访问,也就是说,有了JDBC API,我们就不必为访问Oracle数据库专门写一个程序,为访问Sybase数据库又专门写一个程序等等,只需要用JDBC API写一个程序就够了,它可以向相应数据库发送SQL调用.JDBC是...

SQL Server 检测到基于一致性的逻辑 I/O 错误 pageid 不正确

最近在查询SQL时遇到SQL文件错误,可能是文件数据已损坏。解决过程分享给大家。 问题描述 消息 824,级别 24,状态 2,第 1 行SQL Server 检测到基于一致性的逻辑 I/O 错误 pageid 不正确(应为 1:19741588,但实际为 0:0)。在文件 'D:analytics.MDF' 中、偏移量为 0x000025a772800...

Hadoop集群环境搭建 第二步 : 防火墙关闭,hostname修改,免密访问

1: 关闭防火墙(Centos6.5).集群中每台机器都要关闭 //临时关闭 service iptables stop //禁止开机启动 chkconfig iptables off 2.hostname 修改. vim /etc/sysconfig/networkvim /etc/hostssysctl kernel.hostname 或者 hostn...

phpstudy里升级mysql版本到5.7

phpstudy里没有地方可以设置mysql数据库,很多人都疑惑在phpstudy里怎么升级mysql数据库版本,本文就教你如何在phpstudy中升级mysql的版本。 PhpStudy集成环境中的mysql数据库的版本默认是mysql5.5,下面是PhpStudy升级数据库到mysql5.7的方法: 1:备份当前数据库数据,可以导出数据库文件,作为备份...

DVWA(三):SQL injection 全等级SQL注入

(本文不定期更新) 一、所需环境: 1.DVWA 2.web环境 phpstudy/wamp 3.burp suite 二、SQL注入产生的原因:   程序员在编写代码的时候,没有对用户输入数据的合法性进行判断,使应用程序存在安全隐患 用户可以提交一段数据库查询代码,根据程序返回的结果,获得某些他想得知的数据或进行数据库操作。 三、关于SQL注入需要注意...

用友U8的SQL SERVER 数据库结构说明表

用友U8的SQL SERVER 数据库结构说明表 用友U8的SQL SERVER 数据库结构说明表在帐套中的两个表,一个表是RPT_GRPDEF,存放帐套中重要的表名及相关说明;另一个是RPT_ITMDEF,存放的是主要表中的相关字段说明;这两个表在8.20以后的版本中都有,可以看看 金蝶K3是T_tabledescription 和 T_fielddes...