私は140億レコード(約1TBのサイズ)のハイブテーブルと、8億レコードのもう1つのハイブテーブル(2GBビッグ)を持っています。私は彼らに参加したい、私の戦略は何だろうか? 私は36のノードクラスタを持っています。私は50人のエグゼキュータを使用しています。各エグゼキュータには30 GBです。スパークハイブテーブル結合戦略
私が見たものから、私のオプションは以下のとおりです。
- やみくも2つのテーブルを結合する2 GBのテーブル
- の番組は(私はこれを行っている、完了するまでに約4時間を取っている)
テーブルを再分割して結合すると、パフォーマンスが向上しますか? 2番目のアプローチでは、最後の20個のタスクが非常に遅いことがわかりました。私は、より多くのデータ(偏りのあるデータ)を持つパーティションを処理したいと考えています。
あなたが提供する答えを見ていましたか? – javadba