ハイブはスパークより速いですか？

What is hive, Is it a database?を読んだ後、同僚は昨日、15Bのテーブルをフィルタリングし、「グループ化」を行った後に別のテーブルに参加することができたと言いました。 Sparkではこれが遅くなるのだろうかと思っています。DataFramesで比較できるかもしれませんが、私は確信が持てません。ハイブはスパークより速いですか？

ハイブはスパークよりも高速ですか？あるいは、この質問には意味がありませんか？申し訳ありませんが、私の無知のために。

彼はTezを使用していると思われる最新のHiveを使用しています。

出典

2016-09-09 gsamaras

これらを同等のハードウェアに置き、同等のワークロードを実行します。あなたは答えを知るでしょう。 :) –

@SergioTulentsevを修正しますが、それはデータ固有のものでしょうか？私がここで尋ねようとしていることは、[Hadoopよりも速くスパークするのですか？]（http://stackoverflow.com/questions/32572529/why-is-spark-faster-than-hadoop-map-reduce）私は実験をしたと言いましょう。それでも私はなぜか分からないでしょう。私は**理論的に**何が起こるかを理解しようとしています。:) – gsamaras

FacebookはHiveからSparkに大量のバッチジョブを移植しました。 **デバッグ**（13個のSpark JIRA）とチューニング**が数ヶ月かかりました。しかし今、彼らの仕事はずっと速くなります。あなたは挑戦していますか？ https://code.facebook.com/posts/1671373793181703/apache-spark-scale-a-60-tb-production-use-case/ –

ハイブは、MapReduceタイプのワークロードにsql機能を提供する単なるフレームワークです。

これらの作業負荷は、mapreduceまたは糸で実行できます。

それで、ハイヴとテイクとの比較、ハイヴとスパークの比較。これについて議論している素敵な記事When to go with ETL on Hive using Tez VS When to go with Spark ETL?（わからない場合は、GistがHiveを使用します）より良い

出典

2016-09-09 16:50:11

クリシュナありがとうございました。 Stackoverflowはリンクを高く評価していますが、これらのリンクが死んでしまい、将来のユーザーを助けることができません。記事の*要点/直感/基本的なアイデア*を使ってあなたの答えを更新するように、あなたはとても親切ですか？ :) – gsamaras

@gsamarasはフィードバックに感謝します。この回答を編集します。 –

チャートは更新する必要があります。Spark 2.0には多くの最適化があります。いくつかのクエリは約100倍高速で、ほとんどのクエリはSpark 1.xより約10倍高速です。 –

スパークが便利ですが、SQLのパフォーマンスに関してすべてがうまくスケール処理しません

低いです。

ハイブは、の驚くべきの共同パーティション結合をサポートしています。

bucketed joins

同様のdistribute byとsort by（またはcluster by）：あなたが参加されたテーブルは、行数億から数十億のを持っている場合、あなたは本当にはきめ細かいが経由してサポートに参加感謝します
ハイブはmetadata-only queriesを広範にサポートしています。スパークはそれ以来ずっと光り輝いています2.1

パーティションの数が多分10K +を超えると、スパークがすぐに蒸気を使い果たします。ハイブはこの制限を受けません。

出典

2017-09-20 05:18:12 javadba

ハイブはスパークより速いですか？

答えて

関連する問題