Spark读取JDBC调优
创始人
2024-05-31 01:03:51
0

Spark读取JDBC调优,如何调参

  • 一、场景构建
  • 二、参数设置
    • 1.灵活运用分区列

实际问题:工作中需要读取一个存放了三四年历史数据的pg数仓表(缺少主键id),需要将数据同步到阿里云 MC中,Spark在使用JDBC读取关系型数据库时,默认只开启一个task去执行,性能低下,因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义,否则可能会因为配置不当导致数据倾斜!

翻看了网络上好多相关介绍,都沾边。下边总结一下!

您是菜鸟就好好学习,您是大佬欢迎提出修改意见!

一、场景构建

以100行数据为例(实际307983条):

  • 创建表
CREATE TABLE IF NOT EXISTS test(good_id STRING ,title STRING ,sellcount BIGINT,salesamount Double
)COMMENT '测试表'
PARTITIONED BY (dt	STRING	COMMENT '分区字段'
);
  • 插入数据
insert into test partition (dt = '202001') 
values ('1001','卫衣',1,100.1),('1002','卫裤',2,101.2),('1003','拖鞋',3,10.3)...,('1100','帽子',100,19.23)

二、参数设置

配置文件示例:

jdbc: &jdbcoptions.url: "jdbc:postgresql://xxx.xxx.xxx.xxx:8000/postgres"options.user: "xxxxxx"options.password: "xxxxxx"options.driver: "org.postgresql.Driver"input:- moduleClass: "JDBC"<<: *jdbcoptions.dbtable: "SELECT *,cast(good_id as bigint)*1%6 mo FROM test.test where dt = '202001'"options.fetchsize: "100"options.partitionColumn: "mo" # 分区列,一般为自增id,下边解释下为啥用mooptions.numPartitions: "6" #分区数options.lowerBound: "0"options.mytime: "${yyyy}-${MM}-${dd}"options.upperBound: "6" # 该值设置为和分区列最大值差不多的值resultDF: "df"

提交spark配置

  spark-submit \--class xx.xxx.xxx.xxx \--master local[*] \--num-executors 6 \--executor-cores 1 \--executor-memory 2G \--driver-memory 4G \/root/test/xxx.jar \-p xxx/xxx.yaml -cyctime $cyctime
  • options.fetchsize:一次性读取的数据条数,按集群规模(例:64核128G)一次1000条;阿里云Spark集群链接不了华为云pg数仓,我开了一台独立机器(8核16G)一次100条

  • options.partitionColumn:分区列,必须是bigint类型;

  • options.numPartitions:设置分区数,最好和spark提交的executors数一致;上文中spark任务数为6,分区数也为6

  • options.lowerBound:分区开始值

  • options.upperBound:分区结束值;numPartitions、lowerBound、upperBound这三个必须同时设置,每个分区的数据量计算公式为:upperBound / numPartitions - lowerBound / numPartitions,任务运行时间看的是最长的那个任务,所以要尽可能保证每一个分区的数据量差不多

官方配置文档:
在这里插入图片描述

1.灵活运用分区列

有的小伙伴就该思考为啥不用自增id做分区列呢?

因为实际生产环境中,一是不需要,二是创建表忽略了自增id等等。

为啥要新做一列mo,而不直接将商品id转bigint用呢?

算是一个补救措施,新做一个数据列,在读取过程用mo做shuffle,mo是商品id强转为bigint后对6取膜,结果为0-5共6种可能,提高了shuffle的效率,计算分区的数据量:6 / 6 - 0 / 6 = 1;也就是说分区值为0,1,2,3,4,(大于5),对应6个任务,6个核心。

下面是运行shuffle结束后的截图,可以看到每一个task获取的数据量都比较均匀

没有数据倾斜
下面来看一个错误的案例:
在这里插入图片描述
上图配置就会导致数据倾斜
numPartitions=10,
lowerBound=0,
upperBound=100,
表的数据量是1000。
根据计算公式每个分区的数据量是100/10-0/10=10,分10个区,那么前9个分区数据量都是10,但最后一个分区数据量却达到了910,即数据倾斜了,所以upperBound-lowerBound要和表的分区字段最大值差不多

有啥需要优化的欢迎评论纠正

相关内容

热门资讯

oppo安卓11.1系统新功能... 你知道吗?最近OPPO手机又来了一次大升级,安卓11.1系统的新功能简直让人眼前一亮!今天,就让我带...
win10系统和安卓系统的,全... 你有没有发现,现在手机和电脑的操作系统真是五花八门,让人挑花了眼?今天,咱们就来聊聊两个超级热门的系...
安卓怎么设置重力系统,安卓重力... 你有没有发现,有时候手机屏幕上的图标会自动旋转,就像有看不见的小手在帮你翻书一样?这就是安卓手机的重...
图片管家推荐安卓系统,图片管家... 手机里的图片是不是越来越多,乱糟糟的找不到?别急,今天就来给你安利一款超好用的安卓系统图片管家——它...
安卓2.3系统宣传片,无限可能 你有没有注意到,手机的世界里,有时候一个小小的系统更新就能掀起一阵热潮呢?今天,就让我带你穿越回那个...
有关安卓和苹果系统提问,全面对... 你有没有想过,为什么你的手机里装的是安卓系统,而你的朋友用的是苹果?是不是好奇这两个系统有什么不同?...
安卓系统清理排行榜,助你手机焕... 手机里的安卓系统是不是越来越慢了?别急,今天就来给你揭秘一下安卓系统清理排行榜,让你手机瞬间恢复活力...
安卓系统app自动启动不了,安... 手机里的安卓系统APP突然不自动启动了,这可真是让人头疼啊!你是不是也遇到了这种情况?别急,今天就来...
ios系统和安卓系统哪个才是未... 说到手机操作系统,你是不是也和我一样,对iOS系统和安卓系统哪个才是未来充满了好奇呢?毕竟,这两个系...
最丝滑的安卓系统,最丝滑安卓系... 你有没有想过,手机系统就像是我们生活中的调味品,有时候平淡无奇,有时候却让人回味无穷。今天,就让我带...
笔记本安卓系统下载,下载与使用... 你有没有想过,你的安卓笔记本也能拥有一个全新的操作系统呢?没错,就是那种可以让你在笔记本上畅游安卓世...
老年人安卓手机系统,畅享智能生... 你有没有发现,身边越来越多的老年人开始玩起了智能手机呢?这不,最近我注意到,他们中很多人选择了安卓手...
安卓手机系统大改造,重塑未来 你有没有发现,最近你的安卓手机好像变得不一样了?没错,安卓手机系统正在经历一场大改造,就像换上了新装...
能安装安卓应用的系统,探索无限... 你有没有想过,为什么你的手机可以安装那么多好玩的应用,而电脑就只能用那些固定的软件呢?其实,现在有一...
安卓系统备份备忘录,轻松备份与... 你有没有想过,那些藏在安卓手机里的备忘录,它们就像是你生活中的小秘密,随时准备着为你提供帮助?今天,...
欧沃手机安卓系统,畅享智能生活... 你有没有发现,最近手机市场又掀起了一股热潮?没错,就是欧沃手机!这款手机凭借其出色的性能和亲民的价格...
安卓4.4系统tv软件,探索安... 亲爱的读者们,你是否曾为家里的电视屏幕增添一些智能的魔力而烦恼?别担心,今天我要给你带来一个超级实用...
安卓系统的研究人物,安卓系统发... 你知道吗?在科技飞速发展的今天,安卓系统可是占据了智能手机市场的大半壁江山。而在这片广阔的天地里,有...
山寨苹果刷会安卓系统,安卓系统... 你知道吗?在科技圈里,总有一些让人眼前一亮的小秘密。今天,我要给你揭秘一个关于山寨苹果刷安卓系统的神...
安卓系统新用户登录,畅享智能生... 你刚刚入手了一台全新的安卓手机,是不是有点小激动呢?别急,别急,让我来给你详细介绍一下安卓系统新用户...