环球时讯：工作经验分享：Spark调优【效率提升！建议收藏】

1.优化背景

业务数据不断增大, Spark运行时间越来越长, 从最初的半小时到6个多小时

(相关资料图)

某日Spark程序运行6.5个小时后, 报“Too large frame...”的异常：

org.apache.spark.shuffle.FetchFailedException: Too large frame: 2624680416

2.原因分析

2.1 抛出异常的原因

根本原因: 源数据的某一列（或某几列）分布不均匀,当某个shuffle操作是根据此列数据进行shuffle时，就会造成整个数据集发生倾斜，即某些partition包含了大量数据，超出了2G的限制。

异常，就是发生在业务数据处理的最后一步left join操作。

2.2 临时解决方案

增大partition数, 让partition中的数据量<2g

由于是left join触发了shuffle操作, 而spark默认join时的分区数为200(即spark.sql.shuffle.partitions=200), 所以增大这个分区数, 即调整该参数为800, 即spark.sql.shuffle.partitions=800

2.3 临时解决方案

Spark不再报错,而且“艰难”的跑完了, 跑了近6个小时!

通过Spark UI页面的监控发现, 由于数据倾斜导致, 整个Spark任务的运行时间是被少数的几个Task “拖累的”。

3.思考优化

3.1 确认数据倾斜

方法一: 通过sample算子对DataSet/DataFrame/RDD进行采样, 找出top n的key值及数量；

方法二: 源数据/中间数据落到存储中(如HIVE), 直接查询观察。

3.2 可选优化方法

1.HIVE ETL 数据预处理

把数据倾斜提前到 HIVE ETL中, 避免Spark发生数据倾斜

这个其实很有用，如果不是自己负责，请友好提醒你的上游负责同事

2.过滤无效的数据 (where / filter)

a.NULL值数据

b.“脏数据”(非法数据)

c.业务无关的数据

无效数据需要结合自己负责的业务和场景去判断哈，慎重处理业务的无关数据！！以免造成客户Bug

3.分析join操作, 左右表的特征, 判断是否可以进行小表广播 broadcast

a.这样可避免shuffle操作，特别是当大表特别大;

b.默认情况下, join时候, 如果表的数据量低于;

spark.sql.autoBroadcastJoinThreshold参数值时(默认值为10 MB), spark会自动进行broadcast, 但也可以通过强制手动指定广播;

业务数据量是100MB

c.Driver上有一个campaign_df全量的副本, 每个Executor上也会有一个campaign_df的副本;

d.JOIN操作, Spark默认都会进行 merge_sort (也需要避免倾斜)。

4.数据打散, 扩容join

分散倾斜的数据, 给key加上随机数前缀

1）提高shuffle操作并行度

2）多阶段

aggregate操作: 先局部聚合, 再全局聚合；

给key打随机值, 如打上1-10, 先分别针对10个组做聚合；

最后再统一聚合；

join操作: 切成多个部分, 分开join, 最后union。

判断出造成数据倾斜的一些key值 (可通过观察或者sample取样)；

如主号，单独拎出来上述key值的记录做join, 剩余记录再做join；

独立做优化, 如broadcast；

结果数据union即可。

3.3 实际优化方法

示例：

4.优化后效果

优化处理思维导图

文末给大家分享一份经典的Spark性能优化文档，该文从开发、资源、数据倾斜和shuffle阶段四个角度分析了如何优化Spark程序，真实实用！

关键词：

环球时讯：工作经验分享：Spark调优【效率提升！建议收藏】

安全 23-06-22
茎组词组

综艺 23-06-22
为用户“看家护院”，苹果新专利展示家用安防摄像头_世界今头条

教育 23-06-22
老挝大网红小伟在模仿哈哈修车的故事世界速读

存储 23-06-22

阿尔巴尼亚演唱的歌曲有哪些环球快报

资讯 23-06-22
好看好玩好开又能“装”，这才是打开GT端午出游的正确方式_热门看点

明星 23-06-22
【焦点热闻】利率下调“催发”跨省存款？亲历者讲述：花60多元路费，利息多了近3000元

安全 23-06-22
巴菲特向盖茨基金会等五家机构捐赠46亿美元伯克希尔股票

综艺 23-06-22

乌克兰特工被“抓获”，供词让俄后背发凉，普京大怒：全体出击！

教育 23-06-22
雷军在武汉大学 2023 年毕业典礼发言：为母校捐赠9999.9999万元！世界快看

存储 23-06-22
【全球热闻】数说国之重器“海洋石油201”

资讯 23-06-22
山东省高密市发布高温红色预警|环球快报

明星 23-06-22

焦点消息！【创业100】科技公司老板跨界发展，投资8000万元建秦艾产业园

安全 23-06-22
特斯拉创建Tesla AI推特账户，称正在制造自主机器人的基础模型-天天快报

综艺 23-06-22
移动宽带包半年多少钱（移动宽带包月

教育 23-06-22
2023年6月22日柱状活性炭价格最新行情预测

存储 23-06-22

【全球聚看点】宁夏银川烧烤店爆炸事故 9 名责任人已被控制

资讯 23-06-22
广东东莞比伦先进制造城开工

明星 23-06-22
【全球独家】团代表故事丨海霞女民兵曾秀红：接过老一辈的钢枪与使命

安全 23-06-22
广州市委常委会会议认真学习贯彻省委十三届三次全会精神，郭永航主持|天天聚看点

综艺 23-06-22

环球时讯：工作经验分享：Spark调优【效率提升！建议收藏】

阅读排行

精彩推送