spark中distinct函数去重原理
创始人
2025-05-31 23:44:53
0

spark中的distinct函数去重方式和Scala中的distinct是不同的。
首先来看Scala中的distinct:

List(1,2,3,1,2).distinct

然后来看源码:

def distinct: Repr = {val isImmutable = this.isInstanceOf[immutable.Seq[_]]if (isImmutable && lengthCompare(1) <= 0) reprelse {val b = newBuilderval seen = new mutable.HashSet[A]()var it = this.iteratorvar different = falsewhile (it.hasNext) {val next = it.nextif (seen.add(next)) b += next else different = true}if (different || !isImmutable) b.result() else repr}}

从源码中可以看到,Scala中的distinct函数是使用HashSet来去重的。

接下来看spark中的distinct函数:

val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 1, 2))
val distinctRDD: RDD[Int] = rdd.distinct()

然后看源码:

def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {def removeDuplicatesInPartition(partition: Iterator[T]): Iterator[T] = {// Create an instance of external append only map which ignores values.val map = new ExternalAppendOnlyMap[T, Null, Null](createCombiner = _ => null,mergeValue = (a, b) => a,mergeCombiners = (a, b) => a)map.insertAll(partition.map(_ -> null))map.iterator.map(_._1)}partitioner match {case Some(_) if numPartitions == partitions.length =>mapPartitions(removeDuplicatesInPartition, preservesPartitioning = true)case _ => map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)}}

源码中主要的去重逻辑是:

map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)

首先原始数据为:List(1,2,3,1,2)
去重过程为:

  1. 经过map(x => (x, null))转换为(1,null),(2,null),(3,null),(1,null),(2,null)
  2. 经过reduceByKey将相同key的value进行聚合,数据变为(1,null),(1,null),聚合的逻辑为(x,_)=>x,相同key的值聚合后为(null,null),只取第一个值,返回null。最后key为1的数据就变为了(1,null)
  3. 最后又经过map(_._1),取出第一个数据1,就达到了去重的效果。
    这里spark调用了map--reduceByKey--map算子,采用的是分布式的去重方式。

相关内容

热门资讯

安卓系统能转什么系统好,探索最... 你有没有想过,你的安卓手机是不是也能换换口味,体验一下其他系统的魅力呢?没错,今天就来聊聊这个话题:...
龙之狂热安卓系统,释放龙族狂热 亲爱的手机控们,你是否曾为拥有一款独特的安卓系统而疯狂?今天,就让我带你走进一个充满奇幻色彩的龙之狂...
vivo手机安卓系统怎么升级系... 亲爱的手机控们,你是不是也和我一样,对手机的新功能充满期待呢?尤其是vivo手机的用户,是不是也在想...
鸿蒙2.0退回安卓系统,一场系... 你知道吗?最近科技圈里可是炸开了锅,因为华为的鸿蒙2.0操作系统竟然要退回安卓系统了!这可不是一个简...
安卓系统怎么复制卡,安卓系统卡... 你有没有遇到过这种情况:手机里的照片、视频或者重要文件,突然想备份到电脑上,却发现安卓系统的卡复制功...
app兼容低安卓系统,打造全民... 你有没有发现,现在手机APP更新换代的速度简直就像坐上了火箭!不过,你知道吗?有些APP可是特别贴心...
中间安卓系统叫什么,中间安卓系... 你有没有想过,安卓系统里竟然还有一个中间的版本?没错,就是那个让很多手机用户既熟悉又陌生的版本。今天...
安卓怎么用os系统,利用And... 你有没有想过,你的安卓手机其实可以变身成一个功能强大的操作系统呢?没错,就是那个我们平时在电脑上使用...
pe系统安卓能做么,探索安卓平... 亲爱的读者,你是否曾好奇过,那款在安卓设备上大受欢迎的PE系统,它究竟能做什么呢?今天,就让我带你一...
安卓 打印机系统,安卓打印机系... 你有没有想过,家里的安卓手机和打印机之间竟然能建立起如此紧密的联系?没错,就是那个安卓打印机系统!今...
安卓系统视频做铃声,轻松将视频... 你有没有想过,手机里那些动人心弦的视频,竟然可以变成手机铃声?没错,就是那种一响起就能瞬间抓住你耳朵...
海信电视安卓系统更新,畅享智能... 亲爱的电视迷们,你是否也像我一样,对家里的那台海信电视充满了期待?最近,海信电视安卓系统迎来了一次大...
安卓系统网页不能载入,排查与解... 最近是不是你也遇到了安卓系统网页不能载入的烦恼?别急,让我来帮你一探究竟,找出解决之道!一、问题现象...
赛欧3安卓系统,智能出行新体验 你有没有发现,现在的汽车越来越智能了?这不,我最近就发现了一款特别有意思的车型——赛欧3,它竟然搭载...
能装安卓系统吗,哪些设备能轻松... 你有没有想过,那些看起来普普通通的平板电脑,其实里面藏着大大的秘密呢?没错,就是能装安卓系统!今天,...
安卓能变苹果系统吗,技术揭秘与... 你有没有想过,安卓手机能不能变成苹果系统呢?这听起来就像是科幻电影里的情节,但今天,我们就来揭开这个...
车载安卓系统好卡,车载安卓系统... 你有没有遇到过这样的情况?你的车载安卓系统突然变得超级卡,就像蜗牛一样慢吞吞的,让人抓狂!没错,我就...
安卓系统怎样删除固件,轻松优化... 你有没有遇到过这种情况:手机里的安卓系统突然变得卡顿,或者某个固件版本让你觉得不爽,想要重新来过?别...
安卓鸿蒙系统视频对比,性能与体... 亲爱的读者们,你是否也像我一样,对安卓和鸿蒙系统之间的较量充满了好奇?今天,就让我们一起揭开这场科技...
电脑安卓系统横评,横跨性能与体... 你有没有想过,你的手机和电脑,其实就像两个超级英雄,各有各的本领和特点?今天,就让我带你来一场电脑安...