Apache PigはファイルではなくSTDINからデータをロードできますか？

私は2つのファイルでデータを変換/結合するためにApache pigを使用したいと思いますが、それは実際のデータからテストしますが、小さなサイズ（例えば10行）でテストします。 STDINから読み込んでSTDOUTに出力するブタを使用することは可能ですか？Apache PigはファイルではなくSTDINからデータをロードできますか？

出典

2012-02-20 Gao

答えはいいえです。 MRジョブをデータ上で実行する前に、データノードのクラスタでデータを出力する必要があります。

しかし、小さなデータサンプルを使用していて単純なことをやりたいのであれば、ローカルモードでPigを使用し、stdinをローカルファイルに書き込んでスクリプトで実行することができます。

しかし、もっと大きな疑問があるのは、なぜデータのストリームでMR/Pigを使いたいのですか？このタイプの使用を意図したものでもありません。

出典

2012-02-28 02:50:50 NerdyNick

彼はそれを行う必要があるだろう、なぜにあなたの質問に答えるために、ここにanscenarioだ：私は豚を使用して分析する必要があるこれらの大きなログファイルを持っています。ログファイルの各エントリは、sedを1行にするために必要な複数行のエントリです。私はこれらの各行をsedから豚にパイプしたい（sedが読み込んだログファイルから2行分を1行にして豚に渡す）。 – Saichovsky

Storm（Twitterから）やKafka（Linkedinから）のような別の技術をチェックすることができます。 – NerdyNick

基本的に、Hadoopはストリーミングをvarious waysでサポートしていますが、Pigはもともとストリーミングによるデータのロードをサポートしていませんでした。しかし、いくつかの解決策があります。

あなたはHStreamingをチェックアウトすることができます：

A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);

出典

2012-02-28 21:11:14 Guy

私はそれがまったく涼しいと認めますが、HStreamingについて聞いたことはありません。私は常にKafkaやFlumeなどを見てきました。リアルタイム処理を行いますが、これについてはさらに読んでください。 – NerdyNick

Apache PigはファイルではなくSTDINからデータをロードできますか？

答えて

関連する問題