2016-09-09 4 views
2

What is hive, Is it a database?を読んだ後、同僚は昨日、15Bのテーブルをフィルタリングし、「グループ化」を行った後に別のテーブルに参加することができたと言いました。 Sparkではこれが遅くなるのだろうかと思っています。DataFramesで比較できるかもしれませんが、私は確信が持てません。ハイブはスパークより速いですか?

ハイブはスパークよりも高速ですか?あるいは、この質問には意味がありませんか?申し訳ありませんが、私の無知のために。

彼はTezを使用していると思われる最新のHiveを使用しています。

+1

これらを同等のハードウェアに置き、同等のワークロードを実行します。あなたは答えを知るでしょう。 :) –

+0

@SergioTulentsevを修正しますが、それはデータ固有のものでしょうか?私がここで尋ねようとしていることは、[Hadoopよりも速くスパークするのですか?](http://stackoverflow.com/questions/32572529/why-is-spark-faster-than-hadoop-map-reduce)私は実験をしたと言いましょう。それでも私はなぜか分からないでしょう。私は**理論的に**何が起こるかを理解しようとしています。:) – gsamaras

+1

FacebookはHiveからSparkに大量のバッチジョブを移植しました。 **デバッグ**(13個のSpark JIRA)とチューニング**が数ヶ月かかりました。しかし今、彼らの仕事はずっと速くなります。あなたは挑戦していますか? https://code.facebook.com/posts/1671373793181703/apache-spark-scale-a-60-tb-production-use-case/ –

答えて

2

ハイブは、MapReduceタイプのワークロードにsql機能を提供する単なるフレームワークです。

これらの作業負荷は、mapreduceまたは糸で実行できます。

それで、ハイヴとテイクとの比較、ハイヴとスパークの比較。これについて議論している素敵な記事When to go with ETL on Hive using Tez VS When to go with Spark ETL?(わからない場合は、GistがHiveを使用します)より良い

+0

クリシュナありがとうございました。 Stackoverflowはリンクを高く評価していますが、これらのリンクが死んでしまい、将来のユーザーを助けることができません。記事の*要点/直感/基本的なアイデア*を使ってあなたの答えを更新するように、あなたはとても親切ですか? :) – gsamaras

+0

@gsamarasはフィードバックに感謝します。この回答を編集します。 –

+1

チャートは更新する必要があります。Spark 2.0には多くの最適化があります。いくつかのクエリは約100倍高速で、ほとんどのクエリはSpark 1.xより約10倍高速です。 –

2

スパークが便利ですが、SQLのパフォーマンスに関してすべてがうまくスケール処理しません

Benchmark information

低いです。

ハイブは、の驚くべきの共同パーティション結合をサポートしています。

  • bucketed joins
    • 同様のdistribute bysort by(またはcluster by):あなたが参加されたテーブルは、行数億から数十億のを持っている場合、あなたは本当にはきめ細かいが経由してサポートに参加感謝します

      ハイブはmetadata-only queriesを広範にサポートしています。スパークはそれ以来ずっと光り輝いています2.1

      パーティションの数が多分10K +を超えると、スパークがすぐに蒸気を使い果たします。ハイブはこの制限を受けません。

    関連する問題