阿里OneData构建数据指标体系

摘要:
数据指标用于帮助业务决策GMV、每日活跃用户、每月活跃用户、PV、UV和页面停留时间OneData指标规范使用维度建模作为理论基础,定义业务域、数据域、业务流程、度量/原子指标、维度、维度属性、修改器、修改器类型、时间段、衍生指标、,具有比数据字段更高维度的业务划分方法是指具有统计维度以外的指标的业务场景。维度和修改可以理解为原子指标的一些限定,它们是业务定义中不可分割的指标。

数据指标来辅助业务决策

GMV、日活用户、月活用户、PV、UV、页面停留时长

OneData指标规范

阿里OneData构建数据指标体系第1张

以维度建模作为理论基础,构建总线矩阵,定义业务域、数据域、业务过程、度量/原子指标、维度、维度属性、修饰词、修饰类型、时间周期、派生指标等。

业务域:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统,且业务板块之间的指标或业务重叠性较小。例如用车业务板块包含乘客端、司机端,电商业务板块包含商城、返利模块。

业务过程:业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、评价等业务过程/事件。这里的事件跟埋点的事件类似,详情可查看

业务域倒还能理解,简单来说就是对不同业务的分类;业务过程也容易理解,相当于画业务流程图

数据域:是联系较为紧密的数据主题的集合,是对业务对象高度概括的概念层归类,目的是便于数据管理与应用。简而言之,数据域就类似于我们电脑桌面要建立不同的文件夹来存储数据,这些个文件夹名就是数据域。

维度:是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,可以从who-where-when-what层面来看。

维度属性:维度属性隶属于维度,相当于维度的具体说明,如用户维度中性别为男、女。

修饰词:指除了统计维度以外指标的业务场景。

修饰类型:对修饰词的抽象划分。

简而言之,维度和修饰都可以理解为原子指标的一些限定条件,懂sql的会更好理解一些,一般是写sql时,放在where语句后边的。

度量/原子指标:原子指标和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如注册数。

时间周期:用来明确数据统计的时间范围或是时间点,如最近30天、自然周、截至当日等。

指标类型:包含原子指标、派生指标。原子指标 = 行为事件+度量派生指标 = 一个原子指标+多个修饰词+时间周期

例如:原子指标=完单量,派生指标=近一周iOS乘客完单量,包含时间周期=近一周,修饰词=iOS,维度=乘客,原子指标=完单量。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
阿里OneData构建数据指标体系第2张

模型设计

此时主导的是我们的模型设计工程师,按照阿里的OneData建模理论的指导,模型设计工程师会采用三层建模的方式把数据更加科学的组织存储。分为 ODS(操作数据层),DWD(明细数据层)、DWS(汇总数据层)、ADS (应用数据层),这是业务对数据分层常用的模型。

阿里的一套针对指标的规范定义,让大家在一个标准下看数据消除歧义(指标拆分体系)

阿里OneData构建数据指标体系第3张

数据域:面向业务的大模块,不会经常变。比如我们公司有环贸快版打版服务、亿订电商业务、供应链业务等等大的业务模块类似产品线。

业务过程:如电商业务中的下单、支付、退款等都属于业务过程。

时间周期:就是统计范围,如近30天、自然周、截止到当天等。

修饰类型:比较好理解的如电商中支付方式,终端类型等。

修饰词:除了维度意外的限定词,如电商支付中的微信支付、支付宝支付、网银支付等。终端类型为安卓、IOS等

原子指标:不可再拆分的指标如支付金额、支付件数等指标

维度:常见的维度有地理维度(国家、地区等)、时间维度(年、月、周、日等)

维度属性:如地理维度中的国家名称、ID、省份名称等。

派生指标:原子指标+修饰词+时间周期就组成了一个派生指标。

阿里OneData构建数据指标体系第4张

关于数据指标还有two more thing要谈:

1. 怎么分出指标的重要性。绩效考核指标,部门负责人关注的指标

2. 关于虚荣指标。

PV、UV、月活、总用户数、总商品数

主路径的专户率,访问-商品列表、商品列表-商品详情、商品详情-加购、加购-下单转化率:降低流失就能提高交易额的。

用户的次日留存、7日留存率(新用户7日后是否再次访问)、30日留存率:等能直接反应用户的质量和运营做的好坏。

商品的动销率(销售款数/上架款数):能直接反映这批商品的好坏。

基于阿里OneData的模型设计体系

首先你要知道这些概念。什么是数据仓库、数据仓库和数据库的区别、数据仓库的分层、数据模型的定义。

数据仓库与数据库的区别

阿里OneData构建数据指标体系第5张

 阿里的数据分层分为:ODS、DWD、DWS、ADS。

ODS(操作数据层):是数据仓库第一层数据,直接从原始数据过来的,经过简单地处理,爆款率涉及到的表结构比如订单表、专场表、商品表、用户表等。

DW*(汇总数据层):这个是数据仓库的第二层数据,DWD和DWS很多情况下是并列存在的,这一层储存经过处理后的标准数据。增加了维度形成了统计宽表,比如专场的爆款商品有哪些。

ADS(应用数据层):这个是数据仓库的最后一层数据,为应用层数据,直接可以给业务人员使用。比如某日某个专场爆款率是多少、总的爆款率是什么。

阿里OneData构建数据指标体系第6张

 数据模型有很多,如:范式模型、维度模型、Data Vault 

星型模型的基本概念

星型模型中有两个重要的概念:事实表和维度表。



免责声明:文章转载自《阿里OneData构建数据指标体系》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇java二维数组jumpserver开源堡垒机部署安装下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

JSP:服务器端和前端互传中文信息出现乱码

在前端和服务器端交互的过程中主要是通过HTTP协议进行交互的,而在Servlet接口中有提供一个HttpServlet类用于创建应用于HTTP协议的Servlet. 在Servlet容器中提供了ServletRequest和ServletResponse两个类,通过这两个类的对象来获得数据和发送数据。到这里我们就知道如果需要设置编码格式,那么我们就需要设置...

Vue【你知道吗?】

前言 Vue的由来 Vue最早发布于2014年左右,作者是美中国学生尤雨溪。Vue 的定位就是为前端开发提供一个低门槛,高效率,但同时又能够伴随用户成长的框架 尤雨溪谈Vue.js :缔造自由与真我 Vue的发展历程 实验阶段(2013 年中到 2014 年 2 月) 0.x 阶段 (2014 年 2 月到 2015 年 10 月) 1.x 阶...

[转载]Linux大文件传输

http://www.kuqin.com/linux/20120207/317913.html 我们经常需要在机器之间传输文件。比如备份,复制数据等等。这个是很常见,也是很简单的。用scp或者rsync就能很好的完成任务。但是如果文件很大,需要占用一些传输时间的时候,怎样又快又好地完成任务就很重要了。在我的测试用例中,一个最佳的方案比最差的方案,性能提高...

tmpfs使用探讨

一、 什么是tmpfs? tmpfs是一种基于内存的文件系统,它和虚拟磁盘ramdisk比较类似,但不完全相同,和ramdisk一样,tmpfs可以使用RAM,但它也可以使用swap分区来存储。 而且传统的ramdisk是个块设备,要用mkfs来格式化它,才能真正地使用它; ramdisk(中文名:虚拟内存盘,简称:RAM盘)是通过使用软件将RAM模拟当做...

NetworkStream的使用(TcpClient,TcpListener)

1、在tcp连接中,Networkstream可以重复读取,重复写入,不用关掉连接。 2、关掉NetworkStream会自动关闭掉Tcp连接 3、NetworkStream不需要使用Flush方法,数据会自动发送。 4、NetworkStream.read会阻塞线程直到有新的数据过来,所以,有同学会发现,发送端不释放,接收端不能接收到数据。接收前先判断...

Linux查看实时网卡流量的几种方式

Linux查看实时网卡流量的几种方式 来源  https://www.jianshu.com/p/b9e942f3682c 在工作中,我们经常需要查看服务器的实时网卡流量。通常,我们会通过这几种方式查看Linux服务器的实时网卡流量。 1. sar -n DEV 1 2 sar命令包含在sysstat工具包中,提供系统的众多统计数据。其在不同的系统上命令...