Spark读取JDBC调优
创始人
2024-05-31 01:03:51
0

Spark读取JDBC调优,如何调参

  • 一、场景构建
  • 二、参数设置
    • 1.灵活运用分区列

实际问题:工作中需要读取一个存放了三四年历史数据的pg数仓表(缺少主键id),需要将数据同步到阿里云 MC中,Spark在使用JDBC读取关系型数据库时,默认只开启一个task去执行,性能低下,因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义,否则可能会因为配置不当导致数据倾斜!

翻看了网络上好多相关介绍,都沾边。下边总结一下!

您是菜鸟就好好学习,您是大佬欢迎提出修改意见!

一、场景构建

以100行数据为例(实际307983条):

  • 创建表
CREATE TABLE IF NOT EXISTS test(good_id STRING ,title STRING ,sellcount BIGINT,salesamount Double
)COMMENT '测试表'
PARTITIONED BY (dt	STRING	COMMENT '分区字段'
);
  • 插入数据
insert into test partition (dt = '202001') 
values ('1001','卫衣',1,100.1),('1002','卫裤',2,101.2),('1003','拖鞋',3,10.3)...,('1100','帽子',100,19.23)

二、参数设置

配置文件示例:

jdbc: &jdbcoptions.url: "jdbc:postgresql://xxx.xxx.xxx.xxx:8000/postgres"options.user: "xxxxxx"options.password: "xxxxxx"options.driver: "org.postgresql.Driver"input:- moduleClass: "JDBC"<<: *jdbcoptions.dbtable: "SELECT *,cast(good_id as bigint)*1%6 mo FROM test.test where dt = '202001'"options.fetchsize: "100"options.partitionColumn: "mo" # 分区列,一般为自增id,下边解释下为啥用mooptions.numPartitions: "6" #分区数options.lowerBound: "0"options.mytime: "${yyyy}-${MM}-${dd}"options.upperBound: "6" # 该值设置为和分区列最大值差不多的值resultDF: "df"

提交spark配置

  spark-submit \--class xx.xxx.xxx.xxx \--master local[*] \--num-executors 6 \--executor-cores 1 \--executor-memory 2G \--driver-memory 4G \/root/test/xxx.jar \-p xxx/xxx.yaml -cyctime $cyctime
  • options.fetchsize:一次性读取的数据条数,按集群规模(例:64核128G)一次1000条;阿里云Spark集群链接不了华为云pg数仓,我开了一台独立机器(8核16G)一次100条

  • options.partitionColumn:分区列,必须是bigint类型;

  • options.numPartitions:设置分区数,最好和spark提交的executors数一致;上文中spark任务数为6,分区数也为6

  • options.lowerBound:分区开始值

  • options.upperBound:分区结束值;numPartitions、lowerBound、upperBound这三个必须同时设置,每个分区的数据量计算公式为:upperBound / numPartitions - lowerBound / numPartitions,任务运行时间看的是最长的那个任务,所以要尽可能保证每一个分区的数据量差不多

官方配置文档:
在这里插入图片描述

1.灵活运用分区列

有的小伙伴就该思考为啥不用自增id做分区列呢?

因为实际生产环境中,一是不需要,二是创建表忽略了自增id等等。

为啥要新做一列mo,而不直接将商品id转bigint用呢?

算是一个补救措施,新做一个数据列,在读取过程用mo做shuffle,mo是商品id强转为bigint后对6取膜,结果为0-5共6种可能,提高了shuffle的效率,计算分区的数据量:6 / 6 - 0 / 6 = 1;也就是说分区值为0,1,2,3,4,(大于5),对应6个任务,6个核心。

下面是运行shuffle结束后的截图,可以看到每一个task获取的数据量都比较均匀

没有数据倾斜
下面来看一个错误的案例:
在这里插入图片描述
上图配置就会导致数据倾斜
numPartitions=10,
lowerBound=0,
upperBound=100,
表的数据量是1000。
根据计算公式每个分区的数据量是100/10-0/10=10,分10个区,那么前9个分区数据量都是10,但最后一个分区数据量却达到了910,即数据倾斜了,所以upperBound-lowerBound要和表的分区字段最大值差不多

有啥需要优化的欢迎评论纠正

相关内容

热门资讯

苹果颜值安卓系统,探索跨界融合... 你有没有发现,现在手机市场上有两种截然不同的风格在较量呢?一边是苹果,那可是时尚界的宠儿,颜值爆表;...
适合htpc的安卓系统,精选适... 你有没有想过,家里的电视盒子或者电脑,要是能装上安卓系统,那得多方便啊!想象你可以在上面玩各种游戏,...
安卓如何检测系统广播,Andr... 你有没有想过,你的安卓手机里那些神奇的“广播”是怎么工作的呢?没错,就是那些悄无声息地在你手机后台运...
安卓系统怎么刷recovery... 你有没有想过,你的安卓手机突然间变得有点儿不听话了?别急,别急,我来告诉你怎么刷recovery,让...
不用安卓和苹果系统,多元化移动... 你有没有想过,在这个科技飞速发展的时代,我们竟然可以不用安卓和苹果系统,也能畅游网络世界呢?没错,今...
安卓系统忘记网络设置,安卓系统... 亲爱的安卓用户们,你是否曾经遇到过这样的烦恼:手机连接网络时,突然忘记了网络设置,各种网络连接问题层...
安卓系统无法自己升级,自主升级... 你是不是也遇到了这个问题?安卓系统怎么就突然不升级了呢?别急,今天就来给你好好捋一捋这个让人头疼的小...
华为变成原生安卓系统,原生安卓... 你知道吗?最近科技圈可是炸开了锅,华为的大动作让所有人都瞪大了眼睛。没错,就是那个我们熟悉的华为,竟...
安卓系统手机很便宜,高性价比的... 你有没有发现,最近逛手机市场,安卓系统手机的价格真是让人惊喜不已呢!没错,就是那种我们平时用的最多的...
原生的安卓系统 索尼,深度解析... 你知道吗?在智能手机的世界里,有一个品牌总是以其独特的魅力和精湛的工艺吸引着众多科技爱好者。那就是索...
安卓系统更新历史,从初代到最新... 你有没有发现,你的安卓手机每次更新后都变得焕然一新?没错,这就是安卓系统更新带来的魔力!今天,就让我...
安卓系统的第二套系统,创新与变... 你知道吗?在科技飞速发展的今天,安卓系统已经成为了智能手机市场上的霸主。但是,你知道吗?安卓系统其实...
全军出击安卓系统版本,战力再攀... 你有没有发现,最近全军出击这款游戏在安卓系统上的版本更新可是越来越频繁了呢?这不,我就来给你好好扒一...
安卓系统热点限速软件,优化热点... 你有没有遇到过这种情况:手机连接热点后,网速就像蜗牛爬行一样慢,简直让人抓狂!别急,今天就来给你揭秘...
安卓系统占内存多,揭秘内存消耗... 你有没有发现,手机用着用着,内存就不够用了?尤其是安卓系统,好像特别能吃内存,让人头疼不已。今天,就...
最近安卓系统奔溃,揭秘原因与应... 最近手机界可是炸开了锅呢!安卓系统竟然出现了大规模奔溃,这可真是让人摸不着头脑。咱们一起来探究这背后...
ce系统能刷安卓系统吗,揭秘能... 你有没有想过,你的安卓手机是不是也能用上CE系统呢?这可不是天方夜谭,今天就来给你揭秘一下这个神秘的...
安卓系统UI设计特色,创新与用... 你有没有发现,每次打开安卓手机,那界面设计得真是让人眼前一亮呢?今天,就让我带你一起探索一下安卓系统...
ipod有安卓系统吗,跨界融合... 你有没有想过,那个曾经风靡一时的iPod,它到底有没有安卓系统呢?这个问题,估计让不少音乐爱好者都好...
安卓多少系统最高的,揭秘最高版... 你有没有想过,你的安卓手机到底升级到了哪个系统版本呢?是不是好奇安卓系统里哪个版本才是最高级的呢?别...