apache-pig

0熱

1答えて

私はブタの2つのデータセットを比較しようとしています。 A = Load 'file' using pigstorage('|') (id : chararray, id1: charray, id2 : charray, name: charray, name1 : chararray, adr : chararray); B = Load 'file1' using pigstorage(

0熱

1答えて

豚 - 複雑な関係のスキーマをハイブテーブルに保存

ここに私の契約です。さて、私はハイブから関係を読んだ後、2つの変換の結果として関係を作成しました。事は、私がハイブに戻って分析のカップルの後に最終的な関係を保存するが、私はできないということです。私のコードでそれをはっきりと見てみましょう。私はハイブからロードし、私の結果を変換する際最初の文字列は次のとおりです。 july = LOAD 'POC.july' USING org.apache.h

0熱

2答えて

フォーマットが正しくありません： "19690321"が短すぎます

私はyyyyMMddフォーマットをyyyy/MM/ddフォーマットに変換しようとしています。コード： STOCK_A = LOAD '/user/root/xxxx/*' USING PigStorage('|'); data = FILTER STOCK_A BY ($1 matches '.*ID.*'); MSH_DATA = FOREACH data GENERATE ToDate(

0熱

1答えて

午前2時から翌日にかけての午前2時から午後2時までの午後の豚への入力

毎日毎時ファイルを受信する必要があります。だから1日で24のファイルを受け取ります。これらのファイルを入力とするピグ動作があります。現在の午前2時から翌日2時までのファイルのみが豚の行動への入力になります。この仕事は将来も自動化されるべきです。残りのファイルは、別のピグアクションに入力されます。ファイル形式：abcdef_20170810-020000.tar.gz（02は2AMファイルを表しま

0熱

1答えて

Visual StudioでAzure Hdinsightでpigを使用する方法

AzureでHDInsightを作成し、VS2017でクラウドエクスプローラに接続しました。 Hdinsightブタを使用して単語カウンターを作りたいと思います。私は豚のプロジェクトを作成したが、私は私のscript.pigを起動したとき、私はエラーを取得する： Could not copy the file "obj\Debug\Pig" because it was not found.

0熱

1答えて

MongoDB Hadoop PIGスクリプトが "未定義パラメータ：gte"をスローする例外

mongodbからhdfsにデータをインポートしています。私は現在、データを読み込むためにPIGスクリプトを使用しています。 3時間ごとにmongodbからデータを取得する必要があります。このためには、mongo.input.queryパラメータを渡す必要があります。しかし、私は java.io.IOException: org.apache.pig.tools.parameters.Param

0熱

1答えて

Pigの列で2つの関係を結合しフィルタリングする方法は？

私はPigスクリプトの初心者で、いくつかの既存のブタスクリプトを修正して、ログファイルからいくつかのデータを抽出しようとしています。など。 message Class { message Student { optional int32 uid = 1; optional string name = 2; } optional int32 c

0熱

1答えて

Pigが「Error compiling operator POLocalRearrange」としてエラーになりました

私はcloudera糸VMware Player（非商用）で練習しています。豚の私のスクリプトは、 a1 = load '/user/training/my_hdfs/id' using PigStorage('\t') as(id:int,name:chararray,desig:chararray); a2 = load '/user/training/my_hdfs/trips' usin

0熱

2答えて

日付データを使用して週に取得し、

私のデータは、このようなものである豚で、いくつかの計算を実行します。 (201601030637,2,64.001213) (201601030756,3,63.5869656667) (201601040220,2,62.758471) 最初の列は年（2016年）月（01）の日（03）時間（06）と分（37）が互いに接続されています。週に基づいて3列目の値を合計します。 1年を通して

0熱

1答えて

noob to Hadoop、列ヘッダー付きのタブ区切りのtxtファイルをアップロードしました。どうやってHiveでそれを利用できますか？

カラムヘッダーを含むタブ区切りのtxtファイルであるExcelファイルをアップロードしました。Hadoop Pig &のハイブで通常のテーブル機能を使用するにはどうすればよいですか？列ヘッダーなしで再アップロードする必要がありますので、テーブルとして認識できますか？ https://ibb.co/jqwK6k