admin管理员组文章数量:1597493
文章目录
- 环境搭建
- 基本概念
- 任务执行框架
- spark-shell
- spark-conf
- RDD
-
- IO
- transform
- BroadCast Variables
- Spark SQL
-
- 聚合
- join
- dataset or dataframe
- 外部数据库
- ML
- 优化
- Spark UI
- 其他
- pySpark
- 框架
-
- 调度
- 内存
- YARN
- 异常解决
环境搭建
在Hadoop集群的基础上搭建Spark
Spark记录-spark-env.sh配置
env里要写JAVA_HOME哦!
spark+hadoop配置
Spark和hadoop是怎么连起来的,就全靠SPARK_DIST_CLASSPATH这个参数连起来的,一旦这个参数确定了,并且hadoop配置正常,那么Spark默认读取hdfs上的文件,并且如果没有启动hdfs,spark-shell的一些操作也有可能报错,即使读的是本地的文件= =
如果没有指定该参数,那么默认读取本地文件
所以说如果仅仅学spark,那就老老实实的单个spark,不用配hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/,指定hadoop依赖包,可以少个warn
Spark部分:几个重要的端口汇总
基本概念
从源码角度看Spark on yarn client & cluster模式的本质区别
SparkContext、SparkConf和SparkSession之间的联系及其初始化
sparkSession需要定义在sparkcontext之后
任务执行框架
spark task、job、partition之间的关系 宽窄依赖 spark任务调度
Spark中Task,Partition,RDD的关系
Spark中 sortByKey被划分到transformation中,却有action操作原因
Spark Shuffle 详解
理解spark中的job、stage、task
reduce分job,shuffle分task,task之间并行
Transformations
Task not serializable: java.io.NotSerializableException when calling function outside closure only on classes not objects
Serialization Exception on spark
spark-shell
spark-shell 参数
spark-conf
spark.sql.shuffle.partitions 和 spark.default.parallelism 的区别
RDD
RDD
在RDD的设计中,数据只读,不可修改,如果需要修改数据,必须从父RDD转换到子RDD,
Spark 创建RDD、DataFrame各种情况的默认分区数
版权声明:本文标题:【Spark】积累与发现 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1728256265a1151051.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论