具有成本效益的Apache Spark执行程序配置

哈Ha!预期课程“ Ecosystem Hadoop,Spark,Hive”的开始,我们为您准备了一篇有用的文章的翻译。我们还为您提供免费观看有关以下主题的演示课的录像:“ Spark 3.0:新增功能?” ...


(executor) - , (.. ) (node) . , EC2 . r5.4xlarge, , AWS EC2, 16 .

(job), (Cluster Manager). 16 . , Spark , 15 .

, , , , (core) Spark . (X * Y = 15), , , 15 Spark :

可能的执行程序配置

.

, , - 15 . , , , , , (64 +), . .

, — 15 , . , , , . , . .

10% 384 MB ( , ). big data , Qubole, , . , «Environments» Spark spark.executor.memoryOverhead.

Spark , . , , , . , , .

, . Spark , 5 — . , , , . , . , .

--executor-cores 5

— , . , , . , — . , EC2 , , , . r5.4xlarge AWS , 128 .

128 , . , YARN , .

, 112 .

, 112 , . , 3. .

( Qubole), . (112/3) = 37–2,3 = 34,7 = 34.

Spark , . (112/3) = 37 / 1,1 = 33,6 = 33.

Qubole.

--executor-memory 34G

, Spark . . , Spark Spark. , , , . , , 2, . , , , — , .

, , EC2, . , , .

, , . , , , , .

. , , 5.

, , , . , - , 15 , , , . 3, .

. . , 3, 16- , , 14 . !

, , , 3 , .

--num-executors (3x - 1)

4 , .

data- . AWS , . , .

--driver-memory 34G

, , , . 2 , (3x - 2), .

. , , 500 Spark, , . . , , .

--driver-cores 5

?

, , 16 128 , .

--driver-memory 34G --executor-memory 34G --num-executors (3x - 1) --executor-cores 5

:

— , .

, . . , , , .

, , Expedia Group ™, . , , , .

, , . ? ? , , ? - ? 4: « Apache Spark ».


" Hadoop, Spark, Hive" . "Spark 3.0: ?".

:




All Articles