Spark的基本原理

1.Spark优势特点1.Spark优势特点

1.1.高效性

不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。

1.2.易用性

不同于MapReduce仅支持Map和Reduce两种编程算子，Spark提供了超过80种不同的Transformation和Action算子，如map,reduce,filter,groupByKey,sortByKey,foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。

1.3.通用性

Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。

这些不同类型的处理都可以在同一个应用中无缝使用。这对于企业应用来说，就可使用一个平台来进行不同的工程实现，减少了人力开发和平台部署成本。

1.4.兼容性

Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。

2.Spark基本概念

RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系。
Driver Program：控制程序，负责为Application构建DAG图。
Cluster Manager：集群资源管理中心，负责分配计算资源。
Worker Node：工作节点，负责完成具体计算。
Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行Task，并为应用程序存储数据。
Application：用户编写的Spark应用程序，一个Application包含多个Job。
Job：作业，一个Job包含多个RDD及作用于相应RDD上的各种操作。
Stage：阶段，是作业的基本调度单位，一个作业会分为多组任务，每组任务被称为“阶段”。
Task：任务，运行在Executor上的工作单元，是Executor中的一个线程。
总结：Application由多个Job组成，Job由多个Stage组成，Stage由多个Task组成。Stage是作业调度的基本单位。

3.Spark架构设计

Spark集群由Driver, Cluster Manager（Standalone,Yarn 或 Mesos），以及Worker Node组成。对于每个Spark应用程序，Worker Node上存在一个Executor进程，Executor进程中包括多个Task线程。

对于pyspark,为了不破坏Spark已有的运行时架构，Spark在外围包装一层Python API。在Driver端，借助Py4j实现Python和Java的交互，进而实现通过Python编写Spark应用程序。在Executor端，则不需要借助Py4j，因为Executor端运行的Task逻辑是由Driver发过来的，那是序列化后的字节码。

4.Spark运行流程

Application首先被Driver构建DAG图并分解成Stage。
然后Driver向Cluster Manager申请资源。
Cluster Manager向某些Work Node发送征召信号。
被征召的Work Node启动Executor进程响应征召，并向Driver申请任务。
Driver分配Task给Work Node。
Executor以Stage为单位执行Task，期间Driver进行监控。
Driver收到Executor任务完成的信号后向Cluster Manager发送注销信号。
Cluster Manager向Work Node发送释放资源信号。
Work Node对应Executor停止运行。

5.Spark部署模式

Local：本地运行模式，非分布式。
Standalone：使用Spark自带集群管理器，部署后只能运行Spark任务。
Yarn：Haoop集群管理器，部署后可以同时运行MapReduce，Spark，Storm，Hbase等各种任务。
Mesos：与Yarn最大的不同是Mesos 的资源分配是二次的，Mesos负责分配一次，计算框架可以选择接受或者拒绝。

6.RDD数据结构

RDD全称Resilient Distributed Dataset，弹性分布式数据集，它是记录的只读分区集合，是Spark的基本数据结构。

RDD代表一个不可变、可分区、里面的元素可并行计算的集合。

一般有两种方式创建RDD，第一种是读取文件中的数据生成RDD，第二种则是通过将内存中的对象并行化得到RDD。

#通过读取文件生成RDD
rdd = sc.textFile("hdfs://hans/data_warehouse/test/data")

#通过将内存中的对象并行化得到RDD
arr = [1,2,3,4,5]
rdd = sc.parallelize(arr)

创建RDD之后，可以使用各种操作对RDD进行编程。

RDD的操作有两种类型，即Transformation操作和Action操作。转换操作是从已经存在的RDD创建一个新的RDD，而行动操作是在RDD上进行计算后返回结果到 Driver。

Transformation操作都具有 Lazy 特性，即 Spark 不会立刻进行实际的计算，只会记录执行的轨迹，只有触发Action操作的时候，它才会根据 DAG 图真正执行。

操作确定了RDD之间的依赖关系。

RDD之间的依赖关系有两种类型，即窄依赖和宽依赖。窄依赖时，父RDD的分区和子RDD的分区的关系是一对一或者多对一的关系。而宽依赖时，父RDD的分区和自RDD的分区是一对多或者多对多的关系。

宽依赖关系相关的操作一般具有shuffle过程，即通过一个Patitioner函数将父RDD中每个分区上key不同的记录分发到不同的子RDD分区。

依赖关系确定了DAG切分成Stage的方式。

切割规则：从后往前，遇到宽依赖就切割Stage。

RDD之间的依赖关系形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分成相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。

7.WordCount范例

import findspark

#指定spark_home为刚才的解压路径,指定python路径
spark_home = "/opt/spark/spark-3.4.4-bin-hadoop3"
python_path = "/usr/bin/python"
findspark.init(spark_home,python_path)

import pyspark
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("test").setMaster("local[4]")
sc = SparkContext(conf=conf)

只需要5行代码就可以完成WordCount词频统计。

rdd_line = sc.textFile("./data/hello.txt")
rdd_word = rdd_line.flatMap(lambda x:x.split(" "))
rdd_one = rdd_word.map(lambda t:(t,1))
rdd_count = rdd_one.reduceByKey(lambda x,y:x+y)
rdd_count.collect()

[('world', 1),
 ('love', 3),
 ('jupyter', 1),
 ('pandas', 1),
 ('hello', 2),
 ('spark', 4),
 ('sql', 1)]

8.学习笔记

让 Python 找到 Spark → 初始化 PySpark 运行环境 → 创建一个本地 SparkContext（4 个线程）
这是不通过 spark-submit，直接在 Python / Jupyter 里用 Spark 的典型写法。

8.1.import findspark

findspark 是做什么的？

PySpark 本质上依赖 Java Spark
Python 默认不知道 Spark 安装在哪里
findspark 的作用是：
把 SPARK_HOME
把 PySpark 相关路径
动态加到 sys.path

📌 适合在：

Jupyter Notebook
普通 Python 脚本
非 spark-submit 场景

8.2.指定 Spark 和 Python 路径

spark_home = "/opt/spark/spark-3.4.4-bin-hadoop3"
python_path = "/usr/bin/python"

spark_home

指向 Spark 的解压目录
里面应包含：
bin/
jars/
python/

例如：

spark-3.4.4-bin-hadoop3/
├── bin
├── jars
├── python

python_path

明确指定 PySpark 使用哪个 Python
这点很重要：
避免 Spark 用系统 Python
和你当前 Conda / venv 一致

8.3.初始化 findspark

findspark.init(spark_home, python_path)

它内部做了几件事：
设置环境变量：

SPARK_HOME = spark_home
PYSPARK_PYTHON = python_path

把以下路径加入 Python 搜索路径：

$SPARK_HOME/python
$SPARK_HOME/python/lib/py4j-*.zip

8.4.导入 PySpark 模块

import pyspark
from pyspark import SparkContext, SparkConf

pyspark：PySpark 总模块
SparkConf：Spark 配置对象
SparkContext：Spark 程序的入口

8.5.创建 Spark 配置

conf = SparkConf().setAppName("test").setMaster("local[4]")

setAppName(“test”)

Spark 应用名
会显示在：
Spark UI
日志

setMaster(“local[4]”)
表示：

配置	含义
`local`	本机运行
`[4]`	使用 4 个 CPU 线程

📌 等价解释：
用你电脑上的 4 个核心模拟一个 Spark 集群

常见写法：

local[*] → 用所有核心
local[2] → 用 2 个线程

8.6.创建 SparkContext（真正启动 Spark）

sc = SparkContext(conf=conf)

启动 JVM
✅ 启动 Spark Driver
✅ 建立 Python ↔ Java 通信（Py4J）
✅ Spark 正式可用

此时：
Spark UI 默认在：

http://localhost:4040

整个 Spark 程序只能有一个 SparkContext

8.7.现在还推荐用 SparkContext 吗？

不推荐（Spark 2.x 以后）

更推荐用：

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("test") \
    .master("local[4]") \
    .getOrCreate()

spark.sparkContext 就是 sc

Spark 2.0 之后的设计变化

以前（Spark 1.x）：

SparkContext   → RDD
SQLContext     → DataFrame
HiveContext    → Hive

现在（Spark 2.x+）：

SparkSession（统一入口）
 ├── sparkContext
 ├── read / write
 ├── sql()
 └── catalog

SparkSession = Spark 程序的唯一入口

8.8.什么时候需要 findspark？

场景	是否需要
Jupyter / 普通 Python	✅ 需要
spark-submit	❌ 不需要
已配置 SPARK_HOME	❌ 可不需要

8.9.SparkSession 现代写法

import findspark

# 1. 指定 Spark 和 Python 路径
spark_home = "/opt/spark/spark-3.4.4-bin-hadoop3"
python_path = "/usr/bin/python"

# 2. 初始化 Spark 环境
findspark.init(spark_home, python_path)

# 3. 使用 SparkSession（现代写法）
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("test") \
    .master("local[4]") \
    .getOrCreate()

# 4. 如需 SparkContext（可选）
sc = spark.sparkContext

配置	说明
`appName("test")`	应用名
`master("local[4]")`	本地 4 线程
`getOrCreate()`	已存在则复用，否则新建

getOrCreate() 很重要：

防止重复创建 SparkContext
在 Jupyter 里尤其必要

spark.sparkContext

如果你还要用 RDD API
否则可以完全不写这行

对比：旧写法 vs 新写法

项目	旧写法	新写法
入口	SparkContext	SparkSession
SQL	SQLContext	spark.sql
DataFrame	SQLContext	spark.read
推荐程度	❌ 不推荐	✅ 推荐

8.10.WordCount（词频统计）示例解释

从文本文件中读取内容 → 按空格切词 → 每个词记为 1 → 按词聚合求和 → 得到每个词出现的次数

rdd_line = sc.textFile("./data/hello.txt")

读取文本文件
一行 = RDD 中的一个元素

假设 hello.txt 内容是：

hello spark hello
hello world

那么：

rdd_line = [
  "hello spark hello",
  "hello world"
]

textFile 是懒执行
此时没有真正读取文件

按空格拆分成单词

rdd_word = rdd_line.flatMap(lambda x: x.split(" "))

为什么用 flatMap？

map 会生成「列表的列表」

flatMap 会拍平（flatten）结果

对第一行：

"hello spark hello" → ["hello", "spark", "hello"]

结果变成：

“`rdd_word = [
"hello", "spark", "hello",
"hello", "world"
]

<pre><code class="line-numbers">flatMap 是一对多转换

每个单词映射成 (word, 1)
</code></pre>

rdd_one = rdd_word.map(lambda t: (t, 1))

<pre><code class="line-numbers">变成键值对（Key-Value）：
</code></pre>

rdd_one = [
("hello", 1),
("spark", 1),
("hello", 1),
("hello", 1),
("world", 1)
]

<pre><code class="line-numbers">这是 reduceByKey 的前置条件

按单词分组并累加
</code></pre>

rdd_count = rdd_one.reduceByKey(lambda x, y: x + y)

<pre><code class="line-numbers">Spark 内部做了：

– 按 key 分组

– 对同一个 key 的 value 执行 x + y

等价逻辑：

</code></pre>

"hello": 1 + 1 + 1 = 3
"spark": 1
"world": 1

rdd_count = [
("hello", 3),
("spark", 1),
("world", 1)
]

<pre><code class="line-numbers">reduceByKey 是：

1. 宽依赖

3. 会触发 Shuffle（网络传输）

触发执行并返回结果
</code></pre>

rdd_count.collect()

<pre><code class="line-numbers">collect() 做了什么？

– 把所有结果拉回 Driver

– 真正触发整个计算 DAG

⚠️ 注意：

– 数据大时不能用 collect

– 仅适合教学 / 小数据

完整的数据流图
</code></pre>

textFile
↓
["hello spark hello", "hello world"]
↓ flatMap
["hello", "spark", "hello", "hello", "world"]
↓ map
[("hello",1),("spark",1),("hello",1),("hello",1),("world",1)]
↓ reduceByKey
[("hello",3),("spark",1),("world",1)]
↓ collect
Driver

<pre><code class="line-numbers">Spark 背后发生了什么?
1. 懒执行（Lazy Evaluation）
textFile / map / flatMap / reduceByKey
都不执行
直到 collect() 才真正运行

2. DAG & Stage
textFile → flatMap → map
→ Stage 1（窄依赖）
reduceByKey
→ Stage 2（Shuffle）

3. 并行执行

假设：
</code></pre>

master = local[4]

<pre><code class="line-numbers">- 最多 4 个 Task 并行

– 每个分区一个 Task

为什么不用 groupByKey？
</code></pre>

rdd_one.groupByKey().mapValues(sum)

<pre><code class="line-numbers">原因：

– groupByKey 会把所有 value 拉到内存

– 性能差、容易 OOM

如果想排序？
</code></pre>

rdd_count.sortBy(lambda x: x[1], ascending=False).collect()

<pre><code class="line-numbers">DataFrame 写法

</code></pre>

spark.read.text("./data/hello.txt") \
.selectExpr("explode(split(value,' ')) as word") \
.groupBy("word") \
.count()

<pre><code class="line-numbers">“x 和 y 到底是谁？为什么能一直加？”
</code></pre>

rdd_count = rdd_one.reduceByKey(lambda x, y: x + y)

<pre><code class="line-numbers">对“同一个 key”的所有 value，两两相加，直到只剩一个结果

先看 rdd_one 到底长什么样

假设文件内容是：
</code></pre>

hello spark hello
hello world

rdd_one = [
("hello", 1),
("spark", 1),
("hello", 1),
("hello", 1),
("world", 1)
]

<pre><code class="line-numbers">现在 Spark 会先按 key 分组（逻辑上）：
</code></pre>

hello → [1, 1, 1]
spark → [1]
world → [1]

<pre><code class="line-numbers">这一步是概念上的理解，Spark 并不会真的生成这个列表（那样太慢）。

lambda x, y: x + y 到底怎么用？

以 "hello" 为例
</code></pre>

hello → [1, 1, 1]

<pre><code class="line-numbers">Spark 内部会这样做（顺序不保证，但逻辑一致）：
第一次
</code></pre>

x = 1
y = 1
x + y = 2

x = 2
y = 1
x + y = 3

("hello", 3)

<pre><code class="line-numbers">👉 x 永远是“之前算出来的结果”
👉 y 是“新拿到的一个 value”

为什么是 x 和 y，不是 t 或别的？
因为 reduce 的定义就是：

每次拿两个同类型的值，合并成一个同类型的值

– 输入：(value, value)

– 输出：value

这里的 value 是 int
所以：
</code></pre>

(int, int) → int

<pre><code class="line-numbers">为什么叫 reduceByKey？
拆开看就明白了：

| 部分 | 含义 |
| —— | ———– |
| reduce | 把多个值“缩减”为一个 |
| by key | 按 key 分开来做 |

等价伪代码（你脑子里可以这样想）：
</code></pre>

for key in keys:
result = values[0]
for v in values[1:]:
result = result + v

<pre><code class="line-numbers">再看几个常见例子

求最大值
</code></pre>

reduceByKey(lambda x, y: max(x, y))

("a", "b", "c") → "abc"
reduceByKey(lambda x, y: x + y)

<pre><code class="line-numbers">和 groupByKey 的关键区别
groupByKey（慢、占内存）
</code></pre>

("hello", [1,1,1]) → sum

<pre><code class="line-numbers">reduceByKey（边算边合）
</code></pre>

1 + 1 → 2
2 + 1 → 3

<pre><code class="line-numbers">👉 reduceByKey 在 Shuffle 前就做了局部合并（Combiner）

##### 8.11.什么时候 Spark UI 会启动？

只要 Spark 应用在运行，Spark UI 就会自动启动
你不需要额外“启动命令”。

👉 前提：SparkContext / SparkSession 已经创建

例如你已经有：
</code></pre>

spark = SparkSession.builder \
.appName("test") \
.master("local[4]") \
.getOrCreate()

<pre><code class="line-numbers">这行代码一执行，Spark UI 就已经起来了。

##### 8.12.如何查看 Spark UI（本地模式）
✅ 1️⃣ 默认访问地址
在浏览器里打开：
</code></pre>

http://localhost:4040

<pre><code class="line-numbers">如果 4040 打不开怎么办？
Spark 会自动换端口：
| 应用序号 | 端口 |
| —- | —- |
| 第一个 | 4040 |
| 第二个 | 4041 |
| 第三个 | 4042 |

一个最小可复现示例
</code></pre>

from pyspark.sql import SparkSession

spark = SparkSession.builder \
.appName("UI-test") \
.master("local[4]") \
.getOrCreate()

sc = spark.sparkContext

data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)
print(rdd.map(lambda x: x * 2).collect())

print("Spark UI 已启动，浏览器打开 http://localhost:404? ?请查看提示信息")
input("按回车键结束程序…")

<h1>⚠️ 如果程序直接结束，Spark UI 也会立刻消失</h1>

<h1>所以要让程序“停住”一会儿</h1>

spark.stop()

<h1>Add port 4040 (and a small range for when Spark uses 4041, 4042, etc.)</h1>

sudo firewall-cmd –permanent –zone=public –add-port=4040-4050/tcp

<h1>Reload to apply immediately</h1>

sudo firewall-cmd –reload

spark-submit –master local[4] app.py

“`

8.13.Spark UI 里有什么？

打开 UI 后，你会看到几个 Tab

1️⃣ Jobs（最重要）

每一个 Action（collect / count / save） = 一个 Job
你可以看到：

Job 状态

执行时间

成功 / 失败

👉 点进去可以看到 Stage 级别细节

2️⃣ Stages（理解 Shuffle 的关键）

每个 Stage = 一组 Task
是否有 Shuffle 一目了然
WordCount 中：

map / flatMap → Stage 0

reduceByKey → Stage 1（Shuffle）

3️⃣ Tasks（性能分析）

每个 Task 的运行时间
哪个 Task 慢
是否数据倾斜

4️⃣ Storage（缓存相关）

哪些 RDD / DataFrame 被缓存
内存使用情况

5️⃣ Environment（环境）

Spark 配置
Java / Python 版本
Executor 信息

2025 年 12 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31