誰かがHBaseStorageを使ってBigtableのデータをPapでデータにロードすることに経験があるか、成功しましたか?HBaseStorageを使用してBigtableからDataprocのPig経由でロード
私は実行しようとしている非常に単純な豚スクリプトです。 BigtableConnectionクラスが見つからないというエラーが表示され、Bigtableからデータを正常にロードするためにどのような設定が失われているのだろうと思います。私はセットアップに私のクラスタに続く
raw = LOAD 'hbase://my_hbase_table'
USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(
'cf:*', '-minTimestamp 1490104800000 -maxTimestamp 1490105100000 -loadKey true -limit 5')
AS (key:chararray, data);
DUMP raw;
ステップ:
- 発足Bigtableのクラスタ(my_btを)。 https://cloud.google.com/bigtable/docs/installing-hbase-shell
- 追加されたプロパティのDataprocマスター(/opt/hbase-1.2.1)以下の手順で作成され、人口my_hbase_table
- 進水Dataprocクラスター(my_dp)をcloud.google.comクラウドDataprocコンソール経由
- インストール済みのHBaseシェル
hbase-site.xml
にmy_btとBigtableConnectionクラスのコマンドを介して - 呼び出さブタ上記内容
- 作成されたファイル
t.pig
:gcloud beta dataproc jobs submit pig --cluster my_dp --file t.pig --jars /opt/hbase-1.2.1/lib/bigtable/bigtable-hbase-1.2-0.9.5.1.jar
- はBigtableConnectiを示す次のエラーが発生しましたクラスで見つかりません:
2017年3月21日15:30:48029 [JobControl] ERRORのorg.apache.hadoop.hbase.mapreduce.TableInputFormat - にjava.io.IOException:java.lang.ClassNotFoundExceptionが:COM .google.cloud.bigtable.hbase1_2.BigtableConnection
私はすべての依存関係を持つ影付きのbigtable mapreduce jarを使用することを提案しますあなたが必要です。 http://search.maven.org/#search%7Cga%7C1%7Cbigtable%20mapreduceに移動し、「shaded.jar」をダウンロードします。 –
'のように見え、'と 'は@SolomonDuskisのURLに自動的に追加されました。アーティファクトをダウンロードするにはhttp://search.maven.org/#search%7Cga%7C1%7Cbigtable%20mapreduceにアクセスします。 –
私はshaded.jarをダウンロードし、豚の仕事を提出するときに同じエラーを受け取ります。テストを実行するときに得られる出力をアップロードできます。 – EduBoom