spark 集合交集差集运算

摘要:
Intersectexcept是Spark提供的一个集合减法操作,但操作中涉及的两个数据帧必须具有相同的dataSchema。如果我想找到出现在集合1中另一个集合2中的所有属性2的行,那么交集是完全无效的。我与Spark联系的时间不长,所以我不得不绕道而行。如果名称未更改,则连接不能通过过滤器相交

intersect except是spark提供的集合差集运算, 但是要求参与运算的两个dataframe,有相同的data Schema。

如果我想从 集合1(attribute1, attribute2, attribute3)求 attribute2 出现在另一个集合2(attribute2, attribute4, attribute5)里的所有行

则intersect 完全无效, 我刚接触spark没多久, 只好就绕了一下路。 实践如下。 

multiple_orders$forJoin = multiple_orders$presentee_mobile
multiple_orders$presentee_mobile=NULL
order_nonFastCar <- join(order_nonFastCar, multiple_orders, order_nonFastCar$presentee_mobile==multiple_orders$forJoin, "left_outer")
order_nonFastCar= filter(order_nonFastCar, "forJoin is null")
order_nonFastCar$forJoin=NULL

把属性改一下名, 是因为order_nonFastCar里也有presentee_mobile这个属性列。 如果不改名, join之后无法通过filter求交集

免责声明:文章转载自《spark 集合交集差集运算》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Ntp服务器的搭建wpf 中设置DataGridTextColumn的文本对齐方式下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

(三)Java 高级特性

第一章 集合框架 集合框架是为表示和操作集合而规定的一种统一的标准系结构。集合框架都包含三个块内容对外的接口、接口的实现和集合运算的算法。 接口:表示集合的抽象数据类型,如Collection、List、Set、Map、Iterator。 实现:集合框架中接口的具体实现,如ArrayList、LinkedList、HashMap、HashSet。 算法:...

Spark_2:Spark 快速入门教程

本文转自:Spark 快速入门教程,主要介绍了spark的基本概念和交互式使用(Scala语言),不涉及在独立应用中使用spark、集群部署 1. Spark 是什么 Apache Spark 是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Spark 正如其名,最大的特点就是快(Lightning-fast),可比...

Scala基础之集合(数组)

集合介绍 Scala的集合有三大类:序列Seq、集Set、映射Map,所有的集合都扩展自Iterable特质。对于几乎所有的集合类,Scala都同时提供了可变和不可变的版本。 集合可变,不可变的区别 Scala默认提供的集合都是不可变。 不可变:增删改 都会返回有个新数组 可变:可增删改  可变: scala.collection.mutable ha...

python字符编码、字符串格式化、字符串方法、列表、元组、字典、集合等基础知识总结

目录: 一、字符编码 二、字符串格式化 三、进制转换 四、数据类型及其操作 1.int类、2.str类 五、格式转换 六、For循环 七、三元运算 八.列表 九、列表推导式 十、元组 十一、字典 十二、集合set 十三、文件操作 十四、变量指向和深浅拷贝 一.字符编码: 计算机由美国人发明,最早的字符编码为ASCII,只规定了英文字母数字和一些特殊字符与数...

java1.8新特性之stream

什么是Stream? Stream字面意思是流,在java中是指一个来自数据源的元素队列并支持聚合操作,存在于java.util包中,又或者说是能应用在一组元素上一次执行的操作序列。(stream是一个由特定类型对象组成的一个支持聚合操作的队列。)注意Java中的Stream并不会存储元素,而是按需计算。关于这个概念需要以下几点解释:1、数据源流的来源。...

Spark优化之二:集群上运行jar程序,状态一直Accepted且不停止不报错

如果运行Spark集群时状态一直为Accepted且不停止不报错,比如像下面这样的情况: 15/06/14 11:33:33 INFO yarn.Client: Application report for application_1434263747091_0023 (state: ACCEPTED) 15/06/14 11:33:34 INFO yar...