Etl

数据同步增量全量的区别

1.数据同步看数据量和增删改查的原因确定是否是增量同步还是全量同步 1.一般mongo表使用增量数据,因为我们业务数据mongo存储的内容较多,如果每天都使用使用全量的话,占用太大了(不区别etl_dt) 2.一般mysql表使用全量数据,因为mysql表极限在千万级别,所以删除和修改的操作更多一些,整体量级比mongo小,这样可以使用全量(每一个etl_...

Spark在美团的实践

https://tech.meituan.com/2016/03/31/spark-in-meituan.html 本文已发表在《程序员》杂志2016年4月期。 前言 美团是数据驱动的互联网服务,用户每天在美团上的点击、浏览、下单支付行为都会产生海量的日志,这些日志数据将被汇总处理、分析、挖掘与学习,为美团的各种推荐、搜索系统甚至公司战略目标制定提供数据支...

创建SSIS包—ETL中典型的数据清洗

前面我们熟悉了很多ELT任务,这一个节来讨论复杂点的数据清洗。这里我们要使用的数据源是.dat文件,这种文件在大型主机上,或者是比较老旧的应用系统中非常常见。这个例子的情景是一个信用卡公司,目前正着手于拓展Florida州新成立的一些公司的业务。市场部门每周都会向这些公司发送一些邮件,我们要为所有的邮件准备抽取数据。假设Florida州提供的一个上面这个d...

数据仓库基础(六)数据的ETL

ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,是构建数据仓库最重要的一步。 1.抽取 抽取时元数据进入到数据仓库的第一步。因为每个业务系统数据的质量不相同,所以需要对每个数据源建立不同的抽取程序。 抽取的主要功能: 提供数据匹配器的功能:这样使得程序可以与多种业务数据源相连接。 提供标准化的功能:抽取最重要的一个功...

数据仓库基础(七)Informatica PowerCenter介绍

 Infromatica PowerCenter介绍: 1993年在美国加利福尼亚州成立,一年后在美国纳斯达克上市。 informatica的特点:1.强大的多种数据类型访问能力 2.企业级的数据集成解决方案 3.强大的ETL功能 Infromatica PowerCenter工具概况 主要有一下几部分组成: 1.Administration Consol...

数据仓库项目中的数据建模和ETL日志体系

数据仓库项目跨功能需求开发不够完善,导致的各种问题,就我个人经验来说,主要体现在数据建模不够标准和 ETL 日志体系不够完善两个方面,本文会详细介绍一下,如何从跨功能需求的角度,构建标准的数据建模和完善的 ETL 日志体系。   对于一个软件来说,分为功能需求和跨功能需求(Cross-Functional Requirements, CFR)。功能需求,一...

ETL构建数据仓库五步法

原文:http://huangy82.blog.163.com/blog/static/49069827200923034638409/ ETL构建企业级数据仓库五步法 在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程,如果说数据仓库是一座大厦,那 么ETL就是大厦的根基,ETL抽取整合数据...

ora-26002:Informatica的Powercenter跑ETL时,出现ora-26002错误解决办法

在使用Informatica进行ETL导数的时候,出现下面的错误: WRT_8229 Database errors occurred: ORA-26002: Table REPORT.TB_JK_020_DATA_LIST has index defined upon it. 解决办法只需要打开对应mapping的设置弹出窗口,如下: 选中Targets...

从 SQL Server 到 MySQL (一):异构数据库迁移

背景 沪江成立于 2001 年,作为较早期的教育学习网站, 当时技术选型范围并不大: Java 的版本是 1.2,C# 尚未诞生,MySQL 还没有被 Sun 收购, 版本号是 3.23。 工程师们选择了当时最合适的微软体系,并在日后的岁月里, 逐步从 ASP 过度到 .net,数据库也跟随 SQL Server 进行版本升级。 十几年过去了,技术社区已经...