当前位置: 移动技术网 > IT编程>数据库>其他数据库 > Spark性能调优1-数据倾斜特征/常见原因/后果/常见调优方案

Spark性能调优1-数据倾斜特征/常见原因/后果/常见调优方案

2019年09月25日  | 移动技术网IT编程  | 我要评论
数据倾斜特征:个别Task处理大部分数据 后果:1.OOM;2.速度变慢,甚至变得慢的不可接受 常见原因: 数据倾斜的定位: 1.WebUI(查看Task运行的数据量的大小)。 2.Log,查看log中哪一行出现OOM,查找具体哪个Stage,进而确定哪一个shuffle产生了数据倾斜。 3.查看代 ...

数据倾斜特征:个别task处理大部分数据

后果:1.oom;2.速度变慢,甚至变得慢的不可接受

 

常见原因:

数据倾斜的定位:

1.webui(查看task运行的数据量的大小)。

2.log,查看log中哪一行出现oom,查找具体哪个stage,进而确定哪一个shuffle产生了数据倾斜。

3.查看代码,主要是join,groupbykey,reducebykey等代码。

4.对数据特征分布进行分析。

如您对本文有疑问或者有任何想说的,请 点击进行留言回复,万千网友为您解惑!

相关文章:

验证码:
移动技术网