生而为人

程序员的自我修养

0%

待整理

[toc]

总结

大数据基础—Spark整体复习

sparkUI

Spark UI (1) - Jobs页面

Spark Web UI 监控详解

sparkSQL

spark sql多维分析优化——细节是魔鬼

从一个sql引发的hive谓词下推的全面复盘及源码分析(上)

优化

spark执行map-join优化

使用Spark进行搜狗日志分析实例——map join的使用

记录一次spark sql的优化过程

spark sql多维分析优化——提高读取文件的并行度

SparkConfiguration

Spark性能优化指南——高级篇

Streaming

Streaming Join

Introducing Stream-Stream Joins in Apache Spark 2.3

架构

Running Spark on YARN

Job Scheduling

Spark 如何并行执行多个job

Task如何共享变量

解决方案

Spark项目实战-数据倾斜解决方案之将reduce join转换为map join

Add jars to a Spark Job - spark-submit

spark3 jar加载顺序

use batch or streaming

5 Minutes Spark Batch Job vs Streaming Job

常见错误汇总

Container xxx is running beyond physical memory limits

spark读文件

http://www.waitingfy.com/archives/4325

http://www.waitingfy.com/archives/4342

读文件tips:

  1. 可以写路径”path/xxx/*” 来读取全部的文件

本地搭建spark环境

原理

Dynamic resource allocation in Spark

序列化

spark之kryo 序列化

配置

spark广播变量大小

调试

  1. Get current number of partitions of a DataFrame

questions

  1. spark batch任务可以并行执行吗
  2. spark.streams.awaitAnyTermination()
  3. java.lang.RuntimeException: Could not serialize lambda broadcast
  4. 为什么spark任务,建议每个executor不超过5个core
  5. spark广播变量的最大值