《大数据管理:数据集成的技术、方法与最佳实践》

摘要:
《大数据管理:数据集成的技术、方法和最佳实践》分为四个部分,共22章。它提供了用于在不同计算机系统之间传输数据和在大型组织环境中集成异构数据的技术、技术和最佳实践的高级描述,包括数据集成、批处理数据集成、实时数据集成和大数据集成的介绍。

《大数据管理:数据集成的技术、方法与最佳实践》

基本信息

原书名:Managing Data in Motion: Data Integration Best Practice Techniques and Technologies

原出版社: Morgan Kaufmann

作者: (美)April Reeve   

译者: 余水清 潘黎萍

丛书名: 大数据技术丛书

出版社:机械工业出版社

ISBN:9787111459057

上架时间:2014-3-11

出版日期:2014 年3月

开本:16开

页码:140

版次:1-1

所属分类:计算机 > 数据库 > 数据库存储与管理

《大数据管理:数据集成的技术、方法与最佳实践》第1张 

更多关于》》》《大数据管理:数据集成的技术、方法与最佳实践》

 

编辑推荐

      移动互联网、物联网和社交媒体的飞速发展,数据量呈现蠕炸式增长,企业如何实现应用之间的数据共享,如何更好地利用已有数据资源

  作者结合她25年的数据集成工作经验,给出了实施企业数据集成的通用法则,深入讲解大数据环境下大中型企业不同应用系统间数据集成的关键技术、架构、工具集和最佳实践

 

内容简介

    书籍

    计算机书籍

  《大数据管理:数据集成的技术、方法与最佳实践》是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。

  《大数据管理:数据集成的技术、方法与最佳实践》分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术和最佳实践,内容涵盖数据集成导论、批处理数据集成、实时数据集成和大数据集成等。

  《大数据管理:数据集成的技术、方法与最佳实践》虽然介绍了各种数据集成问题的多种不同类型的技术解决方案,但读者无需具备广阔的技术背景就能理解,适合数据处理相关的项目经理、数据分析师、数据模型设计师、数据库工作者以及数据集成程序员等相关技术人员及数据管理专业学生阅读。

 

媒体评论

  很少有企业奢望能够拥有一个统一的、集成的数据平台。但是在企业信息管理领域至少要考虑的一个问题就是,我们如何对待和管理日益增长的接口。April Reeve针对数据集成这一问题给出了清晰的概览和指导。

  ——John Ladley,IMCue方案公司首席工程师

  这本书针对企业每天所面临的复杂挑战给出了清晰的解决思路,以通俗易懂的语言介绍批处理、实时和大数据集成,包括相关定义、思路、观点,以及最佳实践。我强烈推荐这本书!

  ——Danette McGilvray,Granite Fall咨询公司总裁兼首席顾问

 

 

 

目录

《大数据管理:数据集成的技术、方法与最佳实践》

译者序

序言

前言

第一部分 数据集成导论

第1章 数据集成的重要性 / 2

1.1 数据接口的天然复杂性 / 2

1.2 购买供应商应用包的数量日益增加 / 3

1.3 大数据和虚拟化的催化剂 / 3

第2章 什么是数据集成 / 5

2.1 运动中的数据 / 5

2.2 集成为通用格式—数据转换 / 5

2.3 数据从一个系统迁移到另一个系统 / 6

2.4 在组织内部移动数据 / 6

2.5 从非结构化数据中抽取信息 / 8

2.6 将处理移动到数据端 / 9

第3章 数据集成的类型和复杂性 / 10

3.1 管理运动中的数据和持久化数据的异同点 / 10

3.2 批处理数据集成 / 10

3.3 实时数据集成 / 11

3.4 大数据集成 / 11

3.5 数据虚拟化 / 12

第4章 数据集成开发过程 / 13

4.1 数据集成开发生命周期 / 13

4.2 包含业务知识和专家经验 / 14

第二部分 批处理数据集成

第5章 批处理数据集成简介 / 18

5.1 什么是批处理数据集成 / 18

5.2 批处理数据集成生命周期 / 19

第6章 抽取、转换和加载 / 20

6.1 什么是etl / 20

6.2 概要分析 / 20

6.3 抽取 / 21

6.4 暂存 / 22

6.5 访问层次 / 22

6.6 转换 / 23

6.6.1 简单映射 / 23

6.6.2 查找表 / 24

6.6.3 聚合和规范化 / 24

6.6.4 计算 / 24

6.7 加载 / 24

第7章 数据仓库 / 26

7.1 什么是数据仓库 / 26

7.2 企业数据仓库架构中的层次 / 26

7.2.1 操作型应用层 / 26

7.2.2 外部数据 / 27

7.2.3 数据仓库中的数据暂存区 / 27

7.2.4 数据仓库数据结构 / 28

7.2.5 从数据仓库到数据集市或者商务智能层的暂存 / 28

7.2.6 商务智能层 / 28

7.3 加载到数据仓库中的数据类型 / 29

7.3.1 数据仓库中的主数据 / 29

7.3.2 数据仓库中的余额和快照数据 / 30

7.3.3 数据仓库中的事务型数据 / 31

7.3.4 事件 / 31

7.3.5 调整 / 31

第8章 数据转换 / 39

8.1 什么是数据转换 / 39

8.2 数据转换生命周期 / 39

8.3 数据转换分析 / 39

8.4 数据加载最佳实践 / 40

8.5 提高源数据质量 / 40

8.6 映射到目标系统 / 41

8.7 配置数据 / 41

8.8 测试和依赖 / 42

8.9 私有数据 / 42

8.10 校对 / 43

8.11 环境 / 43

第9章 数据归档 / 47

9.1 什么是数据归档 / 47

9.2 归档数据选择 / 47

9.3 已归档数据可以恢复吗 / 48

9.4 归档环境下数据结构的确认 / 48

9.5 灵活的数据结构 / 49

第10章 批处理数据集成架构和元数据 / 54

10.1 什么是批处理数据集成架构 / 54

10.2 概要分析工具 / 55

10.3 建模工具 / 55

10.4 元数据存储库 / 55

10.5 数据移动 / 56

10.6 转换 / 56

10.7 调度 / 57

第三部分 实时数据集成

第11章 实时数据集成简介 / 64

11.1 为什么需要实时数据集成 / 64

11.2 为什么需要两组技术 / 64

第12章 数据集成模式 / 66

12.1 交互模式 / 66

12.2 松耦合 / 66

12.3 中心和节点模式 / 66

12.4 同步交互和异步交互 / 69

12.5 请求和应答 / 70

12.6 发布和订阅 / 70

12.7 两阶段提交 / 70

12.8 集成交互类型 / 71

第13章 核心实时数据集成技术 / 72

13.1 令人困惑的术语 / 72

13.2 企业服务总线 / 72

13.3 面向服务架构 / 75

13.4 可扩展标记语言 / 77

13.5 数据复制和变化数据捕获 / 81

13.6 企业应用集成 / 82

13.7 企业信息集成 / 82

第14章 数据集成建模 / 84

14.1 规范化建模 / 84

14.2 消息建模 / 88

第15章 主数据管理 / 89

15.1 主数据管理简介 / 89

15.2 需要主数据管理方案的原因 / 89

15.3 购买的软件包与主数据 / 90

15.4 参考数据 / 90

15.5 主和从 / 91

15.6 外部数据 / 93

15.7 主数据管理功能 / 93

15.8 主数据管理方案的类型—注册表以及数据中心 / 94

第16章 实时更新数据仓库 / 95

16.1 企业信息工厂 / 95

16.2 操作型数据存储 / 96

16.3 移动到数据仓库的主数据 / 97

第17章 实时数据集成架构和元数据 / 99

17.1 实时数据集成元数据简介 / 99

17.2 建模 / 100

17.3 概要分析 / 100

17.4 元数据库 / 101

17.5 企业服务总线—数据转换和调度 / 101

17.5.1 技术中介 / 101

17.5.2 业务内容 / 102

17.6 数据移动和中间件 / 102

17.7 外部交互 / 102

第四部分 大数据集成

第18章 大数据集成简介 / 106

18.1 数据集成及非结构化数据 / 106

18.2 大数据、云数据及数据虚拟化 / 106

第19章 云架构和数据集成 / 107

19.1 为什么云中的数据集成比较重要 / 107

19.2 公共云 / 107

19.3 云安全 / 108

19.4 云延迟 / 109

19.5 云冗余 / 110

第20章 数据虚拟化 / 111

20.1 恰逢其时的一项技术 / 111

20.2 数据虚拟化的商业用途 / 112

20.2.1 商务智能方案 / 112

20.2.2 集成不同类型的数据 / 113

20.2.3 快速向数据仓库中增加或者原型增加数据 / 113

20.2.4 将物理上不同的数据一起展现 / 113

20.2.5 利用不同的数据和模型触发交易 / 114

20.3 数据虚拟化架构 / 114

20.3.1 源和适配器 / 114

20.3.2 映射、模型和视图 / 114

20.3.3 转换和展现 / 115

第21章 大数据集成 / 116

21.1 什么是大数据 / 116

21.2 大数据维度—量 / 116

21.2.1 大规模并行处理—将处理过程移动到数据端 / 116

21.2.2 hadoop和mapreduce / 117

21.2.3 与外部数据集成 / 117

21.2.4 虚拟化 / 118

21.3 大数据维度—多样性 / 118

21.3.1 数据类型 / 118

21.3.2 集成不同类型的数据 / 118

21.4 大数据维度—速度 / 120

21.4.1 流式数据 / 121

21.4.2 传感器和gps数据 / 121

21.4.3 社会化媒体数据 / 121

21.5 传统大数据应用案例 / 121

21.6 更多大数据应用案例 / 122

21.6.1 医疗 / 122

21.6.2 物流 / 122

21.6.3 国家安全 / 122

21.7 利用大数据的力量—实施决策支持 / 123

21.7.1 触发行动 / 123

21.7.2 从内存以及磁盘中检索数据的速度 / 123

21.7.3 从数据分析到模型,从流式数据到决策 / 124

21.8 大数据架构 / 125

21.8.1 操作型系统和数据存储 / 125

21.8.2 中间数据中心 / 126

21.8.3 商务智能工具 / 126

21.8.4 数据虚拟化服务器 / 127

21.8.5 批处理和实时数据集成工具 / 127

21.8.6 分析型沙盒 / 127

21.8.7 风险响应系统/推荐引擎 / 127

第22章 移动数据管理总结 / 132

22.1 数据集成架构 / 132

22.1.1 为什么需要数据集成架构 / 132

22.1.2 数据集成生命周期和专家经验 / 132

22.1.3 安全和隐私 / 133

22.2 数据集成引擎 / 134

22.2.1 操作连贯性 / 134

22.2.2 etl引擎 / 134

22.2.3 企业服务总线 / 135

22.2.4 数据虚拟化服务器 / 135

22.2.5 数据移动 / 136

22.3 数据集成中心 / 136

22.3.1 主数据 / 137

22.3.2 数据仓库和操作型数据存储 / 137

22.3.3 企业内容管理 / 138

22.3.4 数据归档 / 138

22.4 元数据管理 / 138

22.4.1 数据发现 / 138

22.4.2 数据概要分析 / 139

22.4.3 数据建模 / 139

22.4.4 数据流建模 / 139

22.4.5 元数据存储库 / 139

22.5 结束语 / 140

参考文献 / 141

 

本图书信息来源:互动出版网

 

免责声明:文章转载自《《大数据管理:数据集成的技术、方法与最佳实践》》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇C#:总结页面传值几种方法ramdisk文件系统的介绍与制作【转】下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Unity3D优化总结(一)

容易忽略的美术资源的优化:         优化的美术制作真是一种感觉和经验的积累,能看出制作水平的不是做的效果多么犀利,而是得看制作的效果与对机器的要求等的性价比。 关于合并:  100个三角形的MESH,在渲染时与1500个面数的物体是没太大差别的,最佳的渲染设置应该在每个模型大约1500-4000个三角面。 材质共享:  如果需要通过脚本来访问复用...

从拼多多优惠券事件看到的一些反思

本文由云+社区发表 作者:颜国平 摘要:最近几年,电商行业飞速发展,各种创业公司犹如雨后春笋大量涌现,商家通过各种活动形式的补贴来获取用户、培养用户的消费习惯,即将到来的“ 购物狂欢节”尤其明显。但任何一件事情都具有两面性,高额的补贴、优惠同时了也催生了“羊毛党”。“羊毛党”的行为距离欺诈只有一步之遥,他们的存在严重破环了活动的目的,侵占了活动的资源,使得...

Spark在美团的实践

https://tech.meituan.com/2016/03/31/spark-in-meituan.html 本文已发表在《程序员》杂志2016年4月期。 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支...

ArcGIS 网络分析[1.5] 使用点线数据一起创建网络数据集(如何避免孤立点/点与线的连通性组合结果表)

ArcGIS中最基本的三种矢量数据是什么?点线面。 网络中除了路网之外,还会有地物点。 如上图,我们在建立网络数据集的时候,作为实验,当然可以只是公路网。但是在大型的决策任务中,网络数据集就不只是公路网那么简单了。 在城市与城市之间,有高速公路,国道,高铁,普铁,甚至还有水路。 如此复杂的网络模型是如何连通的呢?他们之间的交点又有什么样的连通方式呢?在...

node 爬虫 --- 将爬取到的数据,保存到 mysql 数据库中

步骤一:安装必要模块 (1)cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器。 (2)request模块,让http请求变的更加简单 (3)mysql模块,node连接mysql的模块 npm i cheerio request mysql -D 步骤二:分析爬取网址的内容 目标URL: http://zzk.cnblogs.com...

mongodb学习笔记

A.Mongodb特点、功能、使用场景Mongodb的安装和配置Mongodb体系结构数据库的启动、停止、连接JSON/BSON数据格式Mongodb1. 特点数据在内存中,通过后台线程写入磁盘无模式结构进行数据存储---->如产品数据,不同的产品描述完全不一样,那么如果用关系数据库很难处理可以进行实时插入(写性能非常好)自动碎片处理存储数据格式是二...