admin管理员组

文章数量:1656663

一、前言

大数据处理离不开spark(pyspark),日常工作经常需要在有限的资源下,要求高效而优雅的跑出大数据下的pyspark脚本,因此读懂spark ui,分析spark运行情况就非常重要了。

二、定位pyspark运行慢的原因 主要检查的点如下图:

​1、SPARK任务执行慢(运行中)

查看分析的基本步骤:

1. 打开app运行链接,进入spark ui

​2. 查看stage界面,并找到执行慢的stage(一个shuffle操作就是一个stage)

一般能眼看出哪个stage慢 有的时候没有明显的慢,但是整体很慢,拉到最下面,会有很多失败重试的stage

​3. 点击进入stage链接,进入task运行界面

本文标签: 原因SparkUI