0%

待整理

Posted on 2026-04-26 In spark

[toc]

总结

大数据基础—Spark整体复习

sparkUI

Spark UI (1) - Jobs页面

Spark Web UI 监控详解

sparkSQL

spark sql多维分析优化——细节是魔鬼

从一个sql引发的hive谓词下推的全面复盘及源码分析(上)

优化

spark执行map-join优化

使用Spark进行搜狗日志分析实例——map join的使用

记录一次spark sql的优化过程

spark sql多维分析优化——提高读取文件的并行度

SparkConfiguration

Spark性能优化指南——高级篇

Streaming

Introducing Stream-Stream Joins in Apache Spark 2.3

架构

Running Spark on YARN

Spark 如何并行执行多个job

Task如何共享变量

解决方案

Spark项目实战-数据倾斜解决方案之将reduce join转换为map join

Add jars to a Spark Job - spark-submit

spark3 jar加载顺序

use batch or streaming

5 Minutes Spark Batch Job vs Streaming Job

常见错误汇总

Container xxx is running beyond physical memory limits

spark读文件

http://www.waitingfy.com/archives/4325

http://www.waitingfy.com/archives/4342

读文件tips：

可以写路径”path/xxx/*” 来读取全部的文件

本地搭建spark环境

原理

Dynamic resource allocation in Spark

序列化

spark之kryo 序列化

配置

spark广播变量大小

调试

Get current number of partitions of a DataFrame

questions

spark batch任务可以并行执行吗
spark.streams.awaitAnyTermination()
java.lang.RuntimeException: Could not serialize lambda broadcast
为什么spark任务，建议每个executor不超过5个core
spark广播变量的最大值