云小课|DGC数据开发之基础入门篇

摘要:
本文主要介绍DGC数据开发的基本概念、优势、应用场景和数据开发示例,帮助您快速掌握智能数据开发。本文分享自华为云社区的“EI第36课DGC数据开发简介”。原文作者:阅读风云DGC数据开发简介。数据湖治理中心是一个具有智能数据管理能力的一站式治理和运营平台,包括数据集成、数据开发、规范设计、数据质量监控、数据资产管理、数据服务、数据安全等功能。子步骤1:登录DGC控制台并进入数据开发模块。

云小课|DGC数据开发之基础入门篇第1张

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。

摘要:欢迎来到DGC数据开发的世界,花十分钟跟着云小课一起学习云数据开发。本文主要介绍DGC数据开发的基本概念、优势、应用场景及数据开发的示例,帮助您快速掌握智能数据开发。

本文分享自华为云社区《【云小课】EI第36课 DGC数据开发之基础入门篇(10分钟扫盲)》,原文作者:阅识风云

云小课|DGC数据开发之基础入门篇第2张

DGC数据开发简介

数据湖治理中心 (Data Lake Governance Center,简称DGC) ,是具有智能数据管理能力的一站式治理运营平台,包含数据集成、数据开发、规范设计、数据质量监控、数据资产管理、数据服务、数据安全等功能。DGC数据开发又称数据湖工厂(Data Lake Factory,简称DLF),它可管理多种大数据服务,提供一站式的大数据开发环境、全托管的大数据调度能力,极大降低用户使用大数据的门槛,帮助用户快速构建大数据处理中心。

使用数据开发模块,用户可进行脚本开发、作业开发、作业调度、运维监控等操作,轻松完成整个数据的处理分析流程。

云小课|DGC数据开发之基础入门篇第3张

DGC数据开发的优势

云小课|DGC数据开发之基础入门篇第4张

应用场景

云上数仓快速搭建

通过数据集成模块将线下数据迁移到华为云上,将数据集成到华为云大数据服务中,并在数据开发模块中进行数据开发。

云小课|DGC数据开发之基础入门篇第5张

数据分析业务流自动化

通过数据开发模块实现数据导入、清洗、机器学习、数据回传、报表生成端到端流程自动化,把业务搬上自动化流水线。

云小课|DGC数据开发之基础入门篇第6张

复杂BI报表生成自动化

通过数据开发模块的脚本开发、数仓管理和作业开发功能,快速开发报表所需的脚本以及灵活自动生成BI报表。

云小课|DGC数据开发之基础入门篇第7张

海量日志轻松分析挖掘

通过DIS将日志数据接入到OBS存储(或者Cloud Search服务),然后通过数据开发模块服务编写数据开发脚本和数据挖掘脚本,实现海量日志分析和挖掘。

云小课|DGC数据开发之基础入门篇第8张

DGC数据开发示例

本节课我们将通过DLF的Hive SQL任务,定期执行脚本统计表数据,当表数据大于某个值发送通知为例进行介绍。

Step1:登录DGC控制台

Substep1:访问华为云管理控制台。

Substep2:单击管理控制台左上角的符号,选择区域和项目。

Substep3:在首页“服务列表”中,选择“大数据 > 数据湖治理中心DGC”,进入DGC服务的概览页面。

Step2:创建数据连接

数据连接用于保存DLF数据实体的连接信息,本示例需要先创建MRS Hive的数据连接,其中绑定的Agent由CDM集群提供。

Substep1:在DGC控制台的相应的工作空间,单击“管理中心”,进入数据连接页面。

Substep2:单击“创建数据连接”,弹出“创建数据连接”页面,配置如下所示。

云小课|DGC数据开发之基础入门篇第9张

Substep3:单击“测试”,测试数据连接的连通性。如果无法连通,数据连接将无法创建。

Substep4:单击“确定”,创建数据连接。

Step3:创建和开发脚本

数据连接“mrs_hive”创建完成后,需要在线开发SQL脚本,用于查询MRS Hive表“hive_dt”的信息。

Substep1:在DGC控制台的顶部导航栏,选择对应工作空间,单击“数据开发 > 脚本开发”。

Substep2:单击“新建SQL脚本 > Hive”,进入脚本开发页面。

Substep3:选择脚本的“数据连接”为“mrs_hive”、“数据库”为“hive_db”,输入如下SQL语句。

select * from hive_dt;

Substep4:单击“运行”,查询数据表“hive_dt”,执行结果如下所示。

云小课|DGC数据开发之基础入门篇第10张

Substep5:单击保存脚本。

云小课|DGC数据开发之基础入门篇第11张

Substep6:单击保存并提交版本,提交后的脚本在下一步的作业中使用。

Step4:创建和开发作业

脚本“hive_sql”开发完成后,需要通过作业进行编排和调度,实现定期执行脚本,统计MRS Hive表数据的任务。

Substep1:在DGC控制台的顶部导航栏,选择对应工作空间,单击“数据开发 > 作业开发”。

Substep2:单击“新建作业”,弹出“新建作业”页面,配置如下所示。

云小课|DGC数据开发之基础入门篇第12张

Substep3:单击“确定”,新建作业。

Substep4:进入作业开发页面,拖动Hive SQL节点任务到画布并单击,在右侧的“节点属性”页面配置如下所示。

云小课|DGC数据开发之基础入门篇第13张

Substep5:单击右侧的“调度配置”页签,配置调度信息,如下所示。

云小课|DGC数据开发之基础入门篇第14张

Substep6:单击保存作业。

Substep7:单击保存并提交版本。

云小课|DGC数据开发之基础入门篇第15张

  • 提交后的作业可以在作业监控页面查看作业的运行情况和结果;
  • 作业每次运行,都会对应产生一次作业实例记录。在实例监控页面,可以查看作业的实例信息。

Step5:配置通知任务

作业“job_hive_sql”开发完成后,配置作业的通知任务,当作业运行异常时向相关人员发送通知。

Substep1:登录DGC控制台,进入数据开发模块。

Substep2:单击“运维调度 > 通知管理”。

Substep3:在作业的“操作”列,单击“编辑”,弹出“编辑通知”页面,配置如下所示。

云小课|DGC数据开发之基础入门篇第16张

Substep4:单击“确定”,完成作业通知配置任务。

Step6:查看作业和实例运行记录

作业的调度任务启动后,可以查看作业和实例任务的运行记录与结果。

Substep1:登录DGC控制台,进入数据开发模块。

Substep2:单击“运维调度 > 作业监控”。

Substep3:单击作业名称,查看作业的详细运行情况。

Substep4:单击“运维调度 > 实例监控”。

Substep5:单击作业名称前的,查看作业运行产生实例的详细运行情况。

----结束

好了,本期云小课就介绍到这里,学习完本期课程,您是否觉得数据开发竟然这么简单呢。哈哈,快去登录华为云数据湖治理中心Console体验一下吧,想要了解更多数据开发的知识,猛戳这里。

 

点击关注,第一时间了解华为云新鲜技术~

免责声明:文章转载自《云小课|DGC数据开发之基础入门篇》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇网上购物车数据库设计php休眠微秒下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

各种数据分析工具所能处理的数据量大概是多少?

数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 1.Excel Excel 处理的单表最大数据量为1048576行和16384列。一般来说处理规模在100万行以下的数据较为合适。 2.PowerBI PowerBI Desktop一般处理的数据在1G左右再往上就会很卡,一般处理的规模在不大于1G或者说1000万行以下的...

数据库插入超时问题的一个原因和解决方案

近来碰到一个问题,就是客服部使用软件总是出现不能保存的情况.一直找不到原因.后来才发现是数据操作超时. 但是到底是什么导致的超时呢?这里使用了一个事务进行操作,难道是事务锁定的问题? 一直没想到是什么原因,后来才发现原来数据库的文件增长的autoGrowth属性变成了1280percent(1280%),变成了这么大,所以在这个时候即使执行一个简单inse...

获取DataTable中一列的数据

#region 获取合同号DataRow[] arrRow = new DataRow[ds.Rows.Count];int w = 0;foreach (DataRow row in ds.Rows){arrRow[w] = row;w++;}string[] ary = Array.ConvertAll(arrRow, r => r["cdon...

数据持久层

持久是相对于瞬时来说的,其实就是可以把数据固化在硬盘或者磁带一类可以保存很长时间的设备上,不像放在内存中一样断电就消失了。企业应用中数据很重要(各种订单数据、客户数据、库存数据之类的),比应用程序本身更重要,所以需要把数据持久化。持久化可以通过很多方式,写文件和数据库都可以。只是现在企业一般都会选择把数据持久化到数据库中,因为可以很方便的查询统计分析,但数...

C# dataGridView根据数据调整列宽

1 //自适应列宽 2 3 this.dgvBaoming.AutoSizeColumnsMode = System.Windows.Forms.DataGridViewAutoSizeColumnsMode.AllCells; //平铺均分列宽this.dgvBaoming.AutoSizeColumnsMode = System.Windows.Fo...

Oracle 20c 新特性:原生的 JSON 数据类型(Native JSON Datatype)

墨墨导读:Oracle 在 12c(12.1.0.2)版本中引入了对JSON的支持,允许将JSON存储在数据库中的varchar2或LOB(CLOB或BLOB)中。这意味着,我们可以利用无模式设计模型所提供的灵活性来构建应用程序,但又能从Oracle数据库的强大功能中受益。 Oracle 在 12c(12.1.0.2)版本中引入了对JSON的支持,允许将...