[toc]
总结
sparkUI
sparkSQL
从一个sql引发的hive谓词下推的全面复盘及源码分析(上)
优化
使用Spark进行搜狗日志分析实例——map join的使用
Streaming
Introducing Stream-Stream Joins in Apache Spark 2.3
架构
解决方案
Spark项目实战-数据倾斜解决方案之将reduce join转换为map join
Add jars to a Spark Job - spark-submit
spark3 jar加载顺序
use batch or streaming
5 Minutes Spark Batch Job vs Streaming Job
常见错误汇总
Container xxx is running beyond physical memory limits
spark读文件
http://www.waitingfy.com/archives/4325
http://www.waitingfy.com/archives/4342
读文件tips:
- 可以写路径”path/xxx/*” 来读取全部的文件
本地搭建spark环境
原理
Dynamic resource allocation in Spark
序列化
spark之kryo 序列化
配置
调试
questions
- spark batch任务可以并行执行吗
- spark.streams.awaitAnyTermination()
- java.lang.RuntimeException: Could not serialize lambda broadcast
- 为什么spark任务,建议每个executor不超过5个core
- spark广播变量的最大值