spark中distinct函数去重原理_民生

spark中distinct函数去重原理

创始人

2025-05-31 23:44:53

0次

spark中的distinct函数去重方式和Scala中的distinct是不同的。
首先来看Scala中的distinct:

List(1,2,3,1,2).distinct

然后来看源码：

def distinct: Repr = {val isImmutable = this.isInstanceOf[immutable.Seq[_]]if (isImmutable && lengthCompare(1) <= 0) reprelse {val b = newBuilderval seen = new mutable.HashSet[A]()var it = this.iteratorvar different = falsewhile (it.hasNext) {val next = it.nextif (seen.add(next)) b += next else different = true}if (different || !isImmutable) b.result() else repr}}

从源码中可以看到，Scala中的distinct函数是使用HashSet来去重的。

接下来看spark中的distinct函数：

val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 1, 2))
val distinctRDD: RDD[Int] = rdd.distinct()

然后看源码：

def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {def removeDuplicatesInPartition(partition: Iterator[T]): Iterator[T] = {// Create an instance of external append only map which ignores values.val map = new ExternalAppendOnlyMap[T, Null, Null](createCombiner = _ => null,mergeValue = (a, b) => a,mergeCombiners = (a, b) => a)map.insertAll(partition.map(_ -> null))map.iterator.map(_._1)}partitioner match {case Some(_) if numPartitions == partitions.length =>mapPartitions(removeDuplicatesInPartition, preservesPartitioning = true)case _ => map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)}}

源码中主要的去重逻辑是：

map(x => (x, null)).reduceByKey((x, _) => x, numPartitions).map(_._1)

首先原始数据为：List(1,2,3,1,2)
去重过程为：

经过map(x => (x, null))转换为(1,null),(2,null),(3,null),(1,null),(2,null)
经过reduceByKey将相同key的value进行聚合，数据变为(1,null),(1,null)，聚合的逻辑为(x,_)=>x,相同key的值聚合后为(null,null),只取第一个值，返回null。最后key为1的数据就变为了(1,null)。
最后又经过map(_._1)，取出第一个数据1，就达到了去重的效果。
这里spark调用了map--reduceByKey--map算子，采用的是分布式的去重方式。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：云桌面技术哪家强？亲身体验后才知道 | 华为云测评

下一篇：数据分析师CDA认证 Level Ⅰ笔记

热门资讯

安卓系统能转什么系统好,探索最... 你有没有想过，你的安卓手机是不是也能换换口味，体验一下其他系统的魅力呢？没错，今天就来聊聊这个话题：...

龙之狂热安卓系统,释放龙族狂热亲爱的手机控们，你是否曾为拥有一款独特的安卓系统而疯狂？今天，就让我带你走进一个充满奇幻色彩的龙之狂...

vivo手机安卓系统怎么升级系... 亲爱的手机控们，你是不是也和我一样，对手机的新功能充满期待呢？尤其是vivo手机的用户，是不是也在想...

鸿蒙2.0退回安卓系统,一场系... 你知道吗？最近科技圈里可是炸开了锅，因为华为的鸿蒙2.0操作系统竟然要退回安卓系统了！这可不是一个简...

安卓系统怎么复制卡,安卓系统卡... 你有没有遇到过这种情况：手机里的照片、视频或者重要文件，突然想备份到电脑上，却发现安卓系统的卡复制功...

app兼容低安卓系统,打造全民... 你有没有发现，现在手机APP更新换代的速度简直就像坐上了火箭！不过，你知道吗？有些APP可是特别贴心...

中间安卓系统叫什么,中间安卓系... 你有没有想过，安卓系统里竟然还有一个中间的版本？没错，就是那个让很多手机用户既熟悉又陌生的版本。今天...

安卓怎么用os系统,利用And... 你有没有想过，你的安卓手机其实可以变身成一个功能强大的操作系统呢？没错，就是那个我们平时在电脑上使用...

pe系统安卓能做么,探索安卓平... 亲爱的读者，你是否曾好奇过，那款在安卓设备上大受欢迎的PE系统，它究竟能做什么呢？今天，就让我带你一...

安卓打印机系统,安卓打印机系... 你有没有想过，家里的安卓手机和打印机之间竟然能建立起如此紧密的联系？没错，就是那个安卓打印机系统！今...

安卓系统视频做铃声,轻松将视频... 你有没有想过，手机里那些动人心弦的视频，竟然可以变成手机铃声？没错，就是那种一响起就能瞬间抓住你耳朵...

海信电视安卓系统更新,畅享智能... 亲爱的电视迷们，你是否也像我一样，对家里的那台海信电视充满了期待？最近，海信电视安卓系统迎来了一次大...

安卓系统网页不能载入,排查与解... 最近是不是你也遇到了安卓系统网页不能载入的烦恼？别急，让我来帮你一探究竟，找出解决之道！一、问题现象...

赛欧3安卓系统,智能出行新体验你有没有发现，现在的汽车越来越智能了？这不，我最近就发现了一款特别有意思的车型——赛欧3，它竟然搭载...

能装安卓系统吗,哪些设备能轻松... 你有没有想过，那些看起来普普通通的平板电脑，其实里面藏着大大的秘密呢？没错，就是能装安卓系统！今天，...

安卓能变苹果系统吗,技术揭秘与... 你有没有想过，安卓手机能不能变成苹果系统呢？这听起来就像是科幻电影里的情节，但今天，我们就来揭开这个...

车载安卓系统好卡,车载安卓系统... 你有没有遇到过这样的情况？你的车载安卓系统突然变得超级卡，就像蜗牛一样慢吞吞的，让人抓狂！没错，我就...

安卓系统怎样删除固件,轻松优化... 你有没有遇到过这种情况：手机里的安卓系统突然变得卡顿，或者某个固件版本让你觉得不爽，想要重新来过？别...

安卓鸿蒙系统视频对比,性能与体... 亲爱的读者们，你是否也像我一样，对安卓和鸿蒙系统之间的较量充满了好奇？今天，就让我们一起揭开这场科技...

电脑安卓系统横评,横跨性能与体... 你有没有想过，你的手机和电脑，其实就像两个超级英雄，各有各的本领和特点？今天，就让我带你来一场电脑安...

spark中distinct函数去重原理

相关内容

热门资讯