2016-07-07 6 views

答えて

3

スパーク永続的なストレージとして意図されていない(アプリケーションまたはジョブクリーンメモリ後のスパークがあるため)、あなたはHDFS、ElasticSearchまたはこのため、別の「互換性のスパーク」クラスタストレージを使用することができます。

スパークはクラスタストレージからデータを読み込み、random access memory RAM(および任意の一時的な結果のキャッシュ)で動作しますが、ローカルのハードドライブの結果が多すぎる可能性があるため、結果を通常クラスタストレージに返します。

例:Read from HDFS -> Spark ... RDD ... -> Store results in HDFS

あなたはハードドライブ]のような低速なストレージ(ディスク、SSD)やRAMなどの高速な不揮発性メモリとを区別しなければなりません。 Sparkの強みは、ランダムアクセスメモリ(RAM)を多用しています。

あなたが見る、一時的に記憶するため、cachingを使用することがあります。(Why) do we need to call cache or persist on a RDD

+0

を私は理解しますが、データベースがストアオブジェクトに適応されていません...だから最善の解決策は、ディスクおよびその他のデータベース内のデータを持っているために使用HDFSになりますTachyonやRedisのようなメモリ内で、データを読み込み、オブジェクト形式を維持しないときに速度に恩恵を受けるには? – TiGi

+0

HDFSはSparkでうまく動作しますが、HDFS - > Spark - > HDFSを行うことがよくありますが、Sparkと互換性のあるものを使用する必要があり、データを大量に取ることができるはずですが、Sparkの出力は入力が必要なわけではありません。 –

関連する問題