アドホッククエリのためにHBaseテーブルのスキャンを行う必要があります。現在、私は単一のノードを使用しています。 HBaseを1台以上のマシンで分散モードで実行すると高速化できるかどうか疑問に思っていました。 m1.large EC2マシンで300万行のスキャンを実行するには現在、約5分かかります。 スキャンを速くする方法に関するアイデアは大歓迎です。現在、多くの助けとなっているscan.setCachingが有効になっています。2台以上のマシンでHBaseを実行している場合、Hbaseでスキャンを高速に実行していますか?
2
A
答えて
4
いいえ、ノードを追加するとスキャンが高速化されません。 HBaseスキャンは、いくつかの理由で連続しています。
あなたが作るときに返されるものこのような呼び出しHTable.getScanner(scan)
がResult
オブジェクトのイテレータです - next()
項目を呼び出す時、HBaseのは、実際にあなたのスキャンのパラメータを使用して次の行の別のGet-のようなクエリを実行しています。すべてのScan
オブジェクトは、行キーのリストを生成し、それを移動するためのイテレータを提供します(実際には、行キーが存在する領域をキャッシュして把握していますが、無視できます) 。
HBaseのScan
の実際のメカニズムを超えて、regionsの問題が物理的にディスクにデータを格納するためのアーキテクチャとなります。リージョンファイル内の最も幅広い構成要素は列ファミリです。これは、同じ列/ファミリのデータの一部をフェッチする際のオーバーヘッドを少なくすることができるため、意味があります。通常、列ファミリは1つの領域(または列ファミリのサイズが拡大するにつれて領域の集合)内に存在するため、複数の領域からの読取りを保証するのに十分な行を走査しない限り、 (ある時点の後、map/reduce操作を使用してデータセットの情報を収集し、データセットを計算することが有用になります)。
関連する問題
- 1. HBase(簡単):hbaseシェルでレンジプレフィックススキャンを実行する方法
- 2. Hbase HMasterが実行されていない
- 3. R:以下のRコードを実行している場合model.matrix
- 4. Cassandraは単一ノードクラスタ上のHBaseより高速ですか?
- 5. 高速レーンをインストールする。シミュレータ上で.appを実行してトラビスでオートメーションを実行する
- 6. 分散Hadoop上でHBaseをセットアップする際のエラー、ZooKeeperServerが実行されていない
- 7. は、このPowerShellコマンドを実行している場合は1台
- 8. NoClassDefFoundからcmdを実行していてEclipseでは実行していない場合
- 9. HbaseでHadoopを実行するためのプラットフォーム
- 10. cpuがプロセスを実行している場合、誰がカーネルを実行していますか?
- 11. 同じマシン上でPython 2.6と3.1の両方を実行しています
- 12. Hbase Javaのサンプルを実行するには?
- 13. Gitを使用して2台のマシンで同時にプロジェクトを実行すると、Xcode 4がクラッシュする
- 14. メソッドが現在のクラスでまだ実行されていない場合は、メソッドを実行しますか?
- 15. 二台のマシン上で同じソースコードが異なる実行可能な行動
- 16. Pythonプログラムを実行している場合は、実行中の.pyファイルを編集できますか?
- 17. Cygwin上でNode.jsをサービスとして実行しています
- 18. ターゲットがサポートしている場合にのみセレクタを実行しますか?
- 19. Fish Shell:実行していない場合にプロセスを確認して実行する
- 20. のHBase:行のキーサイズ
- 21. は一度に2つ以上のアクティビティを実行していることをお勧めしますか?
- 22. Chromeの「現場で」Javascriptコードを実行していますか?
- 23. SQL Serverジョブはスケジュールされた実行を既に実行している場合はスキップしますか?
- 24. 1台のマシンでサーバとクライアントを実行する(netbeans 8.1)
- 25. 1台のマシンでサーバとクライアントを実行する(netbeans 8.1)
- 26. 仮想マシン上で実行されているipythonノートブックにアクセスしようとしています
- 27. BroadcastReceiverをバックグラウンドで実行し、デバイスがalseepの場合は実行しますか?
- 28. 高速テスト実行
- 29. ポート80以外のポートでnode.jsを実行しています
- 30. サーバー上でXSLTを実行していますか?
mapreduceプログラムを使用すると、スキャンを高速化し、マッパークラスのみを使用できます。 – userRaj