データセットをキャッシュし、そのデータセットで「N」個のクエリを並列に実行していくつかのメトリックを計算する必要があります。フィルタが変更され、これらのクエリを並行して実行する必要があります。これは、応答時間が重要で、キャッシュするデータセットのサイズが常に1 GB未満になるためです。Sparkを使用してデータセットをキャッシュしてクエリを並列に実行する
私はSparkでデータセットをキャッシュし、その後それをクエリする方法を知っていますが、同じデータセットでクエリを並行して実行する必要がある場合、どうすれば同じ結果が得られますか? alluxioの導入は一つの方法ですが、Sparkの世界でこれを達成できる方法はありますか?
たとえばJavaでは、データをメモリにキャッシュしてから、マルチスレッドを使用して同じことを達成できますが、Sparkでどのように行うのですか?
?あなたは最初に試してから、助けを求めるだけです –
私は質問で言及したように、私はデータセットをキャッシュしてその上でクエリを実行する方法を知っています、私はスパークでは、私はアプローチ/コンセプトを使用することを知っている、私はすでに –
を行っていただろう:クエリは、分散データセットとクエリが連続して実行される並列実行することができます。複数のクエリを並列に実行したい場合は、スレッドの概念を使用する必要があります。 :) –