Odps

maxCompute odps 行转列

select name ,REGEXP_REPLACE(str,"[\["\]]",'') from ( select trans_array(1, ",", name,list) as (name,str) from ( select '经办人' as name,'["1001","1002"]'...

数据库之ODPS中sql语句指南

此篇博文为本人在实际工作中应用总结,转载请注明出处。 持续更新中 一、增 1、增加一列(向csp_hsy_count_info表中增加sale_qty列) ALTER TABLE csp_hsy_count_info ADD COLUMNS (sale_qty BIGINT); 2.增加一张表(表为fact_hsy_panter_pay_org,分区为p_...

SpringBoot上传视频等大文件

1背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种形式的技术方案了,也就是本文要阐述的方案。 技术要求主要有以...

MaxCompute中如何通过logview诊断慢作业

​建模服务,在MaxCompute执行sql任务的时候有时候作业会很慢,本文通过查看logview排查具体任务慢的原因 在这里把任务跑的慢的问题划分为以下几类 资源不足导致的排队(一般是包年包月项目) 数据倾斜,数据膨胀 用户自身逻辑导致的运行效率低下 一、资源不足 一般的SQL任务会占用CPU、Memory这两个维度的资源,logview如何查看参考...

大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录

一、背景介绍 最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务。而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的,所以不能使用数据采集工作流模板。 然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台数据导出到CSV文件,然后再将CSV文件导入到ODPS平...

2013年8月,阿里云飞天5K集群成功上线,所有的服务对应的都是同一个系统内核、同一套分布式文件系统

IDC研究显示,包含结构化和非结构化的大数据正在以每年60%的增长率持续增长,到了2020年全球数据总量将增长44倍,达到35.2ZB。而着眼国内,2013年产生的数据总量已经超过0.8ZB,两倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量更可能超过8.5ZB。井喷的数据在给各个机构带来数不尽机遇和财富的同时,也在存储...

【ODPS】阿里云ODPS中带分区的表操作

1.创建分区表: 分区表有自己的分区列,而分区表则没有。 public static void createTableWithPartition(Odps odps, String createTableName) throws Exception { Tables tables = odps.tables();// /获取表示ODPS全部Ta...