informatica 厂商培训资料

摘要:
节点应以与数据库中的存储库不同的方案存储。这里,节点指的是信息操作的内容。分区后,Informatica可以在使用摘要、关联和其他组件时自动确保数据结果的正确性。

1、informatica中domain与node的理解:

   domain 类似于局域网,node就是局域网中的节点或者计算机。

   node应与repository在数据库中存储在不同的scheme中,此处node指informatica操作的内容。

2、informatica中Repository Service 与 Intergration Service

   IS:工作引擎;RS:管理引擎,管理repository;

   IS与RS工作流程为:客户端发请求到IS,IS调用RS完成各种ETL操作,其中,RS工作过程中会访问repository进行元数据信息、T规则等访问,并将task,workflow的结果状态等存储到repository。

   一般一个IS对应一个node,当一个一个IS要对应多个node时,涉及grid,将多个node放在一个grid下,一个grid对应一个IS。

3、server与client端driver配置

   一般配置driver时,尽可能选择native dirver,native dirver的性能高于ODBC,但是ODBC的兼容性和适用性高。

   server 端driver:用于ETL过程中实际存取读写数据;

   client 端driver:用于导入source/target 表,即元数据。

4、informatica中数据处理方式为并行处理,即管道式处理。

5、分区

   分区使处理方式由单线程变成多线程,一个连接变成多个连接。

   分区后,当使用汇总、关联等组件时informatica可自动保证数据结果的正确性。

   在汇总、关联之前,若数据已进行排序,且组件中已排序属性已勾选,则数据为流式通过;否则,需数据全量到达然后进行处理。

6、集群:

   informatica既可支持单机,也可建立集群环境。而且,集群环境可以异构,即不限定OS,version等;

   在集群环境中,任务可通过以下三种方式分发:

   第一种:轮询;

   第二种:动态控制,需在config文件中进行配置;

   第三种:建立task与node的映射表(,然后在config文件中进行配置该映射表?)。

   无论采取哪种方式,都可以保证task的执行顺序,因为task的执行顺序是由repository中workflow表(表名貌似是OPB_WORKFLOW)存储。

7、增值服务组件:HA,可自动接管坏点

   启用方式为:运行workflow时以auto recovery方式运行;

   要求:需在磁盘中建立共享存储,并配置主从节点。

8、规则文档映射

   informatica中mapping可导出成excel文件,并包含各种transformation rule。

   使用方式:在客户端repository组件中,选择要导出的mapping,右键菜单 export metadata。

9、批量开发

   利用visio组件,可实现批量ETL过程开发,尤其适用于平推。(具体转化方式不详)

10、CDC 增量采集

   主要适用于可做增量log的DB,如 oracle。先capture,然后apply。(具体抓取方式需查询相关文档)

11、下推优化:

   指导方针:平衡DB sever 与informatica server的负载。

   原理:将下推部分转化成sql,在DB中实现。可实现source下推和target下推。

   使用方法:session中mapping 菜单下有pushdown 选项。

12、数据校验插件 data validation

   可创建valid rule,代替手工校验。

13、前瞻监控 rulepoint

14、调优:

    1、减少port field

    2、减少过程中数据量,尽早filter

    3、避免不必要排序,sort is expensive

    4、expression 中符号比表达式性能高

       expression 中有变量端口,可生成中间量,重复使用

       expression中尽量少嵌套,可用高级函数代替

    5、尽量避免类型转换

    6、high precision is expensive

15、read write transformation 的统计信息除了在workflow monitor中,session log中也有

16、session中各参数

    DTM memory:session占用的全部内存(内存块个数)

    buffer block size:内存块大小(mapping中所有source的数据量的整数倍)

    line sequential buffer length:当源是文件时,文件记录长度

    max memory:最大内存块数

17、session 调优:

    尽量关闭日志;

    目标加载前利用pre sql 删除索引约束,加载完成后利用post sql 重建索引约束;

    提交间隔可稍微设置大一些;

    关闭统计信息收集;

    设置各种参数;

    数据装载方式尽量选择loader

18、temp文件与cache文件的区别:

    具体参见各组件使用的文件夹配置名称,如sort组件使用temp文件夹,join组件使用cache文件夹。

免责声明:文章转载自《informatica 厂商培训资料》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇报错:(未解决)Opening socket connection to server master/192.168.52.26:2181. Will not attempt to authenticate using SASL (unknown error)sql server 用户创建与权限管理下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Oracle 异常处理汇总

Oracle 异常处理汇总 1、plsql无法连接 安装oracle,中间录入密码,用户是:sys,pass: 录入的密码。 连接数据库,建议创建新的用户,最好别直接用sys 安装完毕,则需要配置Net Configration Assistant,才能通过pl/sql连接 确保服务监听服务已经启动 2、遇到ORACLE错误12514 解决方案: 1)...

QBC查询

-----------------siwuxie095 QBC 查询 1、QBC,即 Query By Criteria,它是 Hibernate 提供 的另一种查询方式 2、使用 HQL 查询需要写 hql 语句,但使用 QBC 查询 不需要写语句,直接使用方法实现 3、QBC操作的是实体类和属性 4、使用 Criteria对象实现 QBC 查询 基本查...

.net core面试题

第1题,什么是ASP net core? 首先ASP net core不是 asp net的升级版本。它遵循了dot net的标准架构, 可以运行于多个操作系统上。它更快,更容易配置,更加模块化,可扩展性更强。   第2题,asp dot core有哪些好的功能? 第一是依赖注入。 第二是日志系统架构。 第三是引入了一个跨平台的网络服务器,kestrel。...

oracle 中v$sqlarea,v$sql,v$session,gv$session,远程连接等问题

一、分析 (1)使用 least recently used (LRU) algorithm 来管理的,不用的自动踢出,可以使用keep 将需要的语句 保存在 library cache中。 所以应该跟内存大小有关,还有跟调度策略什么的 系统中没有能报错所有sql的视图。 (2)v$session 和gv$session 只在RAC中区别明显,有g是全局的...

Memcached内存缓存技术

Memcached是什么,有什么作用? Memcached是一个开源的、高性能的内存缓存软件,从名称上看Mem就是内存的意思,而Cache就是缓存的意思。 Memcached通过在事先规划好的内存空间中临时缓存数据库中的各类数据,以减少业务直接对数据库的访问,从而减轻数据库的访问压力和网站集群的响应速度。 Memcached服务在企业集群架构中应用场景 1...

Cookie和Session的区别

Cookie Cookie:是存在于http协议请求中,标识着用户的身份。 Cookie在客户端的请求头信息,在第一个请求发送给服务端之后,服务端将Cookie发送给客户端(浏览器),浏览器进行存在。 Cookie的信息是在程序后端自定义的。 Cookie的格式是key value Session Session是存储在服务端的,一般存储于缓存数据库,(如...