apache-pig

    0

    1答えて

    hadoopを使用してghtorrent APIによって提供されるGitHubデータを照会しようとしています。このように多くのデータ(4〜5 TB)をHDFSに注入するにはどうすればよいですか?また、そのデータベースはリアルタイムです。ブタ、ハイブ、hbaseなどのツールを使用してハープープのリアルタイムデータを処理することは可能ですか?

    -1

    1答えて

    私は以下のコマンドを使用して豚にデータをロードしましたが、エラーが発生しました。 エラーを修正して解決策を教えてください。 swa = load '/home/user/data/emp.txt' using PigStorage(',') as ($0,$1,$2); エラー - 2017年8月25日09:15:12656 [メイン] ERROR org.apache.pig.tools.g

    1

    1答えて

    hdfsからpigスクリプトを実行しようとしていますが、ファイルが存在しないためエラーが表示されます。 マイHDFSディレクトリ [[email protected] ~]$ hdfs dfs -ls/ Found 11 items drwxrwxrwx - hdfs supergroup 0 2016-08-10 14:35 /benchmarks drwxr-xr-x - hbase

    0

    1答えて

    必要条件は、特定の日の豚のレコードをフィルタリングすることです。したがって、サンプルデータは次のとおりです。 date_time visits count 2017-08-25 02:05:11 12345 5 2017-08-25 02:05:31 23456 7 2017-08-25 02:05:51 34567 1 2017-08-25 02:06:40

    0

    1答えて

    私は豚には非常に新しいので、豚で非常に基本的な処理を実行しようとしている間にいくつかの問題に直面しています。行が2列がCOL_1持っているとcol_2(列がchararrayあると仮定)と私が取得する必要があり、たとえば 2-日付に基づいてレコードをフィルタリングするための処理ロジックを書く豚を使用してファイル の1-ロード、 col_1とcol_2の間に1日の差があるレコードのみ。 3最後に、フ

    0

    1答えて

    私はApache pigを使い始めています。私はcsvファイルを変換しようとしています。 入力は次のようになります場合: 1,A,10,SS,11 ,B,11,BB,12 ,D,12,TT,13 2,A,20,GG,11 ,C,22,YY,9 ,E,30, , は、以下の出力を取得することが可能ですか? Number, Type1, Value, Type2, Value,

    0

    1答えて

    は、2つのファイルは以下のようにHDFSに& DATA2をDATA1持っています。 data1- (1,2,3) (4,2,1) DATA2 (2,4) (8,9) (1,3) 今私は、コマンドを入力して、変数にこのファイルをロードしています。それは FIELD_DISCARDED_TYPE_CONVERSION_FAILED と以下のように示すエラーを示しているダンプ後 A = L

    0

    1答えて

    OLTPシステムは正規化されており、何百ものテーブルが含まれています。レポートをデザインする際に、多くのテーブルに参加する必要があるかもしれません。たとえば、顧客の電子メールアドレスを取得するには、4つまたは5つのテーブルに参加する必要があります。 (我々が使用している通信モデルのおかげで) 私はhdfs(またはs3かもしれない)にデータウェアハウスを設計しようとしています。 emaillアドレス

    0

    1答えて

    入力: IDS: 1111,2222,3333,4444 が従業員: {"name":"abc","id":"1111"} {"name":"xyz","id":"10"} {"name":"z","id":"100"} {"name":"m","id":"99"} {"name":"pqr","id":"3333"} 私はそのIDが与えられたリストに存在する従業員をフィルタリングしま

    0

    1答えて

    以下は私の豚スクリプトです。非常に簡単です。一部のデータをロードしています。列によるデータのフィルタリング。データ型を使用してスキーマを生成する。ハイブテーブルにデータを格納する。 私はそのは 2017-09-15 11:21:04,523 [Thread-12] WARN org.apache.hadoop.mapred.LocalJobRunner - job_local1554819907_