apache-pig

    2

    1答えて

    私は、Java UDFを使用してバッグ内のタプルをランク付けするJava UDFを作成しようとしています。 タプルには、ランク付けの基準となる値列と、最初に0に設定されたランク列があります。 タプルは、値列に基づいてソートされます。 すべてのタプルはバッグに入れられ、そのバッグはUDFに渡される新しいタプルの内側に配置されます。 UDFはランク列を変更していますが、メソッドが終了すると値はすべて0

    2

    1答えて

    私は以下のブタスクリプトを用意しています。ただし、Java EmbeddedPigを使用して同じスクリプトを実行した場合、最後のジョブ(ORDER BY)は失敗しました。 ORDER BYジョブをGROUPやFOREACH GENERATEなどの他の人に置き換えた場合、スクリプト全体がJava EmbeddedPigに成功しました。だから私は問題を引き起こすORDER BYだと思う。誰でもこれにつ

    0

    1答えて

    私の受信トレイをダウンロードしました。私はPigとHadoopでメールを処理しています。私はPigとWonderdogを使ってElasticSearchでこれらの電子メールのインデックスを作成しました。 ここでは、これらのアドレスから送信されたメッセージを表示するために、受信ボックスにメールアドレスごとにウェブページを作成しています。 私は2つの方法でこれを行うことができます: 1)グループ豚、M

    0

    1答えて

    hdfsにあるmapreduceプログラムの出力データをhbaseにロードする方法は? 私はHBaseのにHDFSからデータをロードするために、次の豚のコマンドを実行しようとした: - A = LOAD 'hdfs://b**/user/user1/development/hbase/output/part-00000' USING PigStorage('t') as (strdata1:cha

    5

    2答えて

    タルボール(access.logs.tar.gz)内のログファイルが私のhadoopクラスタにロードされています。私はそれを諦めずに豚に直接ロードする方法が不思議でしたか?

    1

    2答えて

    私はブタのクエリをプロファイルしようとしていますが、これまでのところ有用なものはありませんでした。 CPU、ディスクI/O、RAMの使用量を測定しようとしています。 誰もが私にこれを案内できますか? 物事は、これまで ヒトデを試してみました - 豚 でのHadoopジョブに動作しますが、NOT - 豚のクエリ HPROFをサポートしていません - Hadoopのジョブではなく、豚のクエリで動作しま

    3

    1答えて

    私が使用しているブタスクリプトのUDFを作成できません。私の問題は、私はpig script.pigでスクリプトを実行すると、私は次のエラーを取得することです: [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1121: Python Error. Traceback (most recent call last): File

    1

    1答えて

    データの各行について、フィールド1〜Nにフィールド0を掛けたいと思います。データには、行ごとに数百のフィールド(または変数その件に関するフィールドの数)、それぞれのペアを書くことは実現可能ではありません。次の(間違った)スニペットのような、ある範囲のフィールドを指定する方法はありますか? A = LOAD 'foo.csv' USING PigStorage(','); B = FOREACH

    2

    4答えて

    私はブタのリレーションにフィルタをかけようとしていますが、最初のフィールド文字列に3番目のフィールドがあるすべてのレコードが必要です。 私が試した:そこには構文エラーがありませんが、私は、フィルタリングのための任意の出力を取得していない午前 Filtered= FILTER SRC BY $0 matches 'CONCAT(".*",$2,".")'; DUMP Filtered; (私の

    1

    2答えて

    フィルタキーワード(約1000個)のリストがあり、このリストを使用してブタのリレーションのフィールドをフィルタリングする必要があります。 最初に、私は %declare p1 'のようなキーワードを宣言しました。 キーワード1。 '; .... ... %p1000 'を宣言してください。 キーワード1000。 ';私は、その後のようなフィルタリングを行っています : ろ過= FITLER SRC