初心者のための非常に興味深いApacheのスパークアーキテクチャガイドをざっと歩いこのtutorialに示すように、私は私の理解RDDで スパーク - スパークRDDは論理的な命令の集合ですか?
- が論理的である、以下のようにスパークにRDD処理に関するクエリのカップルに出くわしました物理的なデータセット(遅延実行)上で実行される命令の集合。私の理解は正しいのですか?またはメモリ内の物理的なデータセットですか?
hdfsに格納された20 GBのファイルをsparkアプリケーションで処理します。このファイルは、保管のためにhadoopクラスタに分散されます。したがって、データノードAが3ブロックの合計サイズ192 MBを保持している場合、この3ブロックはdataNode Aの同じエグゼキュータで実行されるか、またはエグゼクティブコンセプトのブロックがありますか?
実行プログラムは、hdfsブロックからデータをロードする責任がありますか?
上記の概念を理解する上での助けとなります。ありがとう。
ありがとうございました。私は3番目の質問を編集しました。しかし、私はエグゼクティブが必要なデータを収集するにつれてあなたの返事にも答えてくれたと思います。:)私の理解は正しいのですか? –
はい、それがあなたを助けたら答えを受け入れてください! –
ありがとうHarel。それは私を助けた.. .. –