What is hive, Is it a database?を読んだ後、同僚は昨日、15Bのテーブルをフィルタリングし、「グループ化」を行った後に別のテーブルに参加することができたと言いました。 Sparkではこれが遅くなるのだろうかと思っています。DataFramesで比較できるかもしれませんが、私は確信が持てません。ハイブはスパークより速いですか?
ハイブはスパークよりも高速ですか?あるいは、この質問には意味がありませんか?申し訳ありませんが、私の無知のために。
彼はTezを使用していると思われる最新のHiveを使用しています。
これらを同等のハードウェアに置き、同等のワークロードを実行します。あなたは答えを知るでしょう。 :) –
@SergioTulentsevを修正しますが、それはデータ固有のものでしょうか?私がここで尋ねようとしていることは、[Hadoopよりも速くスパークするのですか?](http://stackoverflow.com/questions/32572529/why-is-spark-faster-than-hadoop-map-reduce)私は実験をしたと言いましょう。それでも私はなぜか分からないでしょう。私は**理論的に**何が起こるかを理解しようとしています。:) – gsamaras
FacebookはHiveからSparkに大量のバッチジョブを移植しました。 **デバッグ**(13個のSpark JIRA)とチューニング**が数ヶ月かかりました。しかし今、彼らの仕事はずっと速くなります。あなたは挑戦していますか? https://code.facebook.com/posts/1671373793181703/apache-spark-scale-a-60-tb-production-use-case/ –