Data Profiling Task

摘要:
DataProfilingTask是用于收集数据的元数据任务。在使用ETL处理数据之前,您应该首先检查数据质量并分析数据,这将对TableSchema的设计结构和生成ETL的方式产生不可估量的影响。DataProfilingTask以XML格式输出数据文件,并可以通过OpenProfileViewer查看输出结果。2.有8个ProfileRequestTabProfileTypes,用于检查不同类型数据的质量。1.CandidatekeyProfileRequest检查一列或一组列,以确定数据集可用于唯一Candidatekey的可能性,即检查数据列和数据列组合的唯一性。

Data Profiling Task 是用于收集数据的Metadata的Task,在使用ETL处理数据之前,应该首先检查数据质量,对数据进行分析,这将对Table Schema的设计结构和生成ETL的方式产生不可估量的影响。

Data Profiling Task 输出XML格式的数据文件,并能通过Open Profile Viewer 查看输出结果。

一,属性配置 

1,General Tab

Data Profiling Task第1张

可以将Task产生的结构化输出保存到文件中,便于对数据质量进行深入的分析,Destination 就是输出结果保存的Path。

2,Profile Requests Tab

Data Profiling Task第2张

Profile Type 共有8个,分别是检查不同类型的数据质量,非常有用。
1,Candidate key Profile Request

  检查一列或一组列,以确定数据集用于唯一Candidate key的可能性,即check 数据列和数据列组合的唯一性。
2,Column Length Distribution Profile Request

  分析某一列的所有数据,用于确定数据列长度的分布信息
3,Column Null Ration Profile request

  检查某一列中NULL值的比例
4,Column Pattern Profile request

  将正则表达式引用到某一字符串列中,从而确定数据的通过/失败率。
5,Column Statistics Profile Request

  仅适用于数值,日期,时间类型的列,分析所有数据行,提供列值的统计信息:最大值,最小值,平均值和标准方差(列值与平均值的平均方差)
6,Column value Distribution Profile Request

  分析所有数据行,提供列值的分布信息
7,Functional Dependency Profile Request

  分析两个数据列(决定列和依赖列)之间的依赖关系
8,Value Inclusion Profile Request

  确定某一列中的所有值是否全部包含在一个单独的查询或表中,用于check 外键 关系。

二,配置Profile Request

有两种配置Profile Request的方式,第一种在General Tab中,使用 Quick Profile。

Data Profiling Task第3张

第二种就是在Profile Requests Tab中,逐个配置Profile Type。

3,查看数据质量

在General Tab中使用Open Profile Viewer 查看输出结果,分析数据质量。

在该Task执行成功之后,会将结果保存在General Task中设置的Destination 文件中,内容是XML文档。

Data Profiling Task第4张

推荐阅读:

微软BI 之SSIS 系列 - 使用 SQL Profilling Task (数据探测) 检测数据源数据

免责声明:文章转载自《Data Profiling Task》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇HyperLedger/Fabric JAVA-SDK with 1.1C#面向对象思想计算两点之间距离下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

eltable数据遍历结合elform校验

需要实现的效果 最新遇到一个需求,数据在table中遍历展示,且需要校验每一项数据的格式,而且表头数据需要增加必填项*标示。 这里的校验和平时的校验不一样的是此处的数据是循环遍历展示的,因此要注意 prop的值为`bindList[${scope.$index}].nickName` :model="bindForm"中bindForm的数据类型,...

35 | 如何准备测试数据?

测试数据创建的基本方法 从创建测试数据的维度来看,测试数据准备方法主要可以分为四类: 基于 GUI 操作生成测试数据; 通过 API 调用生成测试数据; 通过数据库操作生成测试数据; 综合运用 API 和数据库的方式生成测试数据。 基于 GUI 操作生成测试数据 很少直接使用基于 GUI 的操作生成测试数据。 通过 API 调用生成测试数据 通过 AP...

《第一行代码》阅读笔记(二十二)——LitePal操作数据库

这里郭神又是一顿称赞,反正强无敌就行了。笔者也咨询了一些大神、专家。对于初学者来说这个框架不仅十分方便,足以应付需求,而且郭神讲解通俗易懂,值得一看。 附上Github链接:https://github.com/LitePalFramework/LitePal 配置LitePal 总结起来就是一句话(最新版的需要去github上面找) implementa...

利用jmeter向数据库批量导入数据

一、jmeter进行数据库压力测试步骤汇总 这里我使用的是jmeter5.0,所以驱动包版本要高些,太低执行时会报错 启动jmeter5.0 测试计划导入mysql驱动jar包 添加线程组 添加JDBC Connection Configuration【连接数据库】 添加随机变量 添加JDBC Request【进行不同数据库不同query type操作】...

ffmpeg文档23-元数据(metadata)

23 元数据(metadata) FFmpeg能够提取媒体文件元数据,并转储到一个简单的utf-8编码的类INI文本文件中,然后在分离器/混合器中再次使用 转储的文件格式为: 文件包含一个头,以及一些元数据标签,元数据放置在各自子节的行中 文件头有一个 ‘;FFMETADATA’ 字符串,紧接着版本号(目前为1) 元数据标签以‘key=value’ 形...

expdp/impdp数据泵方式备份还原数据库

1、用sysdba账号登入数据库,然后查询到要更改的用户信息:   SELECT user#,name FROM user$ where user#=110; 2、更改用户名并提交: UPDATE USER$ SET NAME='C##DALIAN' WHERE user#=110; COMMIT; 3、强制刷新: AL...