初识大数据（三. Hadoop与MPP数据仓库）

摘要：

MPP代表大规模并行处理，这是网格计算中所有单个节点参与协调计算的方法。MPPDBMS是基于该方法的数据库管理系统。MPP与SQL和一些事务处理功能完全兼容。如果数据扩展需求不太大，并且数据是结构化数据，如果您习惯于使用传统的RDBMS，则可以选择MPP数据仓库。目前，hadoop技术栈和MPP数据仓库之间有很多讨论和比较。许多人认为hadoop可以取代MPP，但下表中的比较显示了两者之间的差异。对于不同的场景和MPP技术的发展，它们仍然应该共存。

　　MPP代表大规模并行处理，这是网格计算中所有单独节点参与协调计算的方法。是将任务并行的分散到多个服务器和节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果。 MPP DBMS是建立在这种方法之上的数据库管理系统。在这些系统中的每个查询都会被分解为由MPP网格的节点并行执行的一组协调进程，它们的运行时间比传统的SMP RDBMS系统快得多。该架构的另一个优点是可扩展性，因为可以通过添加新节点扩展网格。为了能够处理大量的数据，这些解决方案中的数据通常在每个节点只处理其本地数据的方式在节点（分片）之间分割。这是一种完全无共享(Share Nothing)结构，因而扩展能力最好，理论上其扩展无限制，目前技术上可实现512个节点互联，数千个CPU。MPP有对SQL的完整兼容和一些事务处理功能，如果数据扩展需求不是特别大，数据都是结构化数据，习惯使用传统RDBMS，可以选择MPP数据仓库。

目前有很多关于hadoop技术栈与MPP数据仓库的讨论与对比，很多观点认为hadoop可以替代MPP,但是从下表的比对可以看出两者的差异，对于不同的场景以及MPP技术的发展，应该还是处于并存的状态。另外，基于复杂的数据场景下，混合框架的使用，也还是会存的。我们团队就使用混合框架构建了数据中心，从而完善OLTP能力。

以下是两者的比较：

特性	Hadoop	MPP数据仓库
计算节点数	可到数千个	一般1000个以内
数据量	支持大于10P	一般不大于10P
数据类型	关系型，半关系型，无结构化，语音，图像，视频	关系型
时延	中/高	低（但还是要看数据量和维度的数量）
应用生态	创新型/人工智能	传统数据库型/BI类
应用开发接口	SQL，MR，丰富的编程语言接口	标准数据库SQL
可扩展性	无穷的可能，完整的编程接口	有限扩展能力，主要通过UDF支持
事务支持	有限	完整
价格	低	高

免责声明：文章转载自《初识大数据（三. Hadoop与MPP数据仓库）》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

初识大数据（三. Hadoop与MPP数据仓库）

相关文章

h5页面下拉到底部加载下一页数据

前端与后端的数据交互（jquery ajax+python flask）

jmeter 读取excel数据

纯C++ 连接SQL Server2005 数据库读写操作的小例子

（转）HBase 常用Shell命令

使用 elementUI 树形控件Tree 编辑数据

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表