私は2つのファイルでデータを変換/結合するためにApache pigを使用したいと思いますが、それは実際のデータからテストしますが、小さなサイズ(例えば10行)でテストします。 STDINから読み込んでSTDOUTに出力するブタを使用することは可能ですか?Apache PigはファイルではなくSTDINからデータをロードできますか?
1
A
答えて
0
答えはいいえです。 MRジョブをデータ上で実行する前に、データノードのクラスタでデータを出力する必要があります。
しかし、小さなデータサンプルを使用していて単純なことをやりたいのであれば、ローカルモードでPigを使用し、stdinをローカルファイルに書き込んでスクリプトで実行することができます。
しかし、もっと大きな疑問があるのは、なぜデータのストリームでMR/Pigを使いたいのですか?このタイプの使用を意図したものでもありません。
2
基本的に、Hadoopはストリーミングをvarious waysでサポートしていますが、Pigはもともとストリーミングによるデータのロードをサポートしていませんでした。しかし、いくつかの解決策があります。
あなたはHStreamingをチェックアウトすることができます:
A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);
+1
私はそれがまったく涼しいと認めますが、HStreamingについて聞いたことはありません。私は常にKafkaやFlumeなどを見てきました。リアルタイム処理を行いますが、これについてはさらに読んでください。 – NerdyNick
関連する問題
- 1. PigからPandasにCSV/TSVファイルをロード/エクスポートする方法は?
- 2. OutOfMemoryError - メモリではなくファイルにデータをダンプできますか?
- 3. stdinにバイナリを置くことはできますか? C#
- 4. JNIではなくApache Thriftを使用できますか?
- 5. Apache Pigでいくつかの列を交差する方法は?
- 6. SQLiteOpenHelperは外部ファイルからテーブル・スクリプトをロードできますか?
- 7. Apache Pigを使用してファイルから「文字列式」を削除する手順/コードは何ですか?
- 8. Windowsフォームコントロールにロードできるデータの最大量はいくらですか?
- 9. apache pig、結果をtxtファイルに保存
- 10. Apache Pigエラー:java.lang.reflect.InvocationTargetException
- 11. apache pigコマンド
- 12. Apache StormのSpoutからBoltにファイルを渡すことはできますか?
- 13. 名前付きパイプ(STDIN/STDOUTではなく)でIRBを制御
- 14. PostgreSQL COPY FROMファイルからSTDIN
- 15. stdinからの読み込みは少なくなりますが、ファイル名を表示します
- 16. .htaccessファイルからApacheモジュールを読み込むことはできますか?
- 17. Apache Pigで配列を展開する
- 18. MS WindowsでPythonでstdinをファイルとして開くことはできますか?
- 19. YAHOO.widget.DS_XHRはデータをクロスドメインでロードできますか?
- 20. ApacheはどのようにJavascriptファイルをロードしますか?
- 21. ファイルからではなく、XMLドキュメントからms Unityコンテナを設定することはできますか?
- 22. boost :: program_optionsはパイプからstdin文字列を解析できますか?
- 23. ExcelファイルからRまたはOctaveにデータをロード
- 24. HTMLアジリティパック - Webからではなく、ファイルシステムからのXML文書のみをロードできます。
- 25. ダイレクトjava map reduce codeではなく、データ処理にPig/Hiveを使用していますか?
- 26. PHPからstdinに書き込んでいますか?
- 27. Apache Pigのエスケープカラム名
- 28. Apache Pig、programe run issue
- 29. h5pyはメモリ内のバイト配列からファイルをロードできますか?
- 30. WebBrowserコントロールをファイルからロードしないでください
彼はそれを行う必要があるだろう、なぜにあなたの質問に答えるために、ここにanscenarioだ:私は豚を使用して分析する必要があるこれらの大きなログファイルを持っています。ログファイルの各エントリは、sedを1行にするために必要な複数行のエントリです。私はこれらの各行をsedから豚にパイプしたい(sedが読み込んだログファイルから2行分を1行にして豚に渡す)。 – Saichovsky
Storm(Twitterから)やKafka(Linkedinから)のような別の技術をチェックすることができます。 – NerdyNick