my opinion is my own

Apache Sparkの構成要素、概要、用語について

HadoopとSparkの違い

分散ファイルシステム層のHDFSやリソース管理のYARN等の層はHadoopもSparkも同じ。(StandAloneやmesos等もある。)

Map Reduce部分がSparkになる。

image-20210522185609583

image-20210522185637501

Sparkコンポーネント

image-20210522190427218

https://spark.apache.org/docs/3.1.1/cluster-overview.html

RDD(Resilient Distributed Data)

DataFrame

Data Set

DAG(Directed Acyclic Graph:有向非巡回グラフ)

image-20210522192751078

Job、Stage、Taskの関係

image-20210522194940161

Shuffle

image-20210522195900375

[翻訳] Spark Architecture: Shuffle - Qiita https://qiita.com/giwa/items/08ac5bda1eabb8c597b3

https://qiita.com/kimutansk/items/3ae363bce568677f79b6

参考資料

Sparkの内部処理を理解する - Qiita https://qiita.com/uryyyyyyy/items/ba2dceb709f8701715f7

Spark on EMRの基礎をおさらいする - Qiita https://qiita.com/uryyyyyyy/items/34f3d228f339b32e6fb0

Apache Sparkの概要 - Qiita https://qiita.com/whata/items/8915182cbd3759eebe6d

Spark の RDD、DataFrame、DAG と Glue の DynamicFrame などについて - ablog https://yohei-a.hatenablog.jp/entry/20180916/1537085186

---

関連しているかもしれない記事


#AWS #EMR #Spark