file1.txtとfile2.txtという2つのファイルがありますが、そこにいくつかのレコードがあります。どちらのファイルも同じスキーマを持ちます。 1つのMapperクラスを使用しています。 mapperクラスで読み込まれたタプルがfile1またはfile2から来たかどうかを知りたい1マッパークラスの複数の入力ファイル - Hadoop
答えて
どの入力ファイルからデータが来るのかを特定するには、runメソッドとrecordreaderクラスメソッドをオーバーライドする必要があります。それは少し複雑ですが、私はあなたの代わりにそれを提案します。
これらの両方のファイルを読み込む複数のマッパーを作成し、各マッパーで出力にトークンを追加することができます。マッパーに基づいて結果を識別するのに役立ちます。ドライバクラスでは、複数の入力クラスを使用する必要があります。詳細については、 (https://hadoop.apache.org/docs/r2.6.3/api/org/apache/hadoop/mapreduce/lib/input/MultipleInputs.html)のリンクをご覧ください。
jarファイルを実行するときは、入力データを読み込みたい入力ファイルのパスと、出力を保存するパスのパスを指定します。
は、私は、これはあなたのクエリの解決を願って、より詳細http://dailyhadoopsoup.blogspot.in/2014/01/mutiple-input-files-in-mapreduce-easy.html?m=1
についてはこちらを参照してください。
あなたはこれを試すことができます: -
我々は、単一のマッパーに複数のファイルを取得している場合には、ファイル名の情報を得るために、マップ内のロジックを記述します。
マッパーが単一のファイルしか取得していない場合、セットアップ方法でこれを書き込むことができます。これにより、I/O操作が節約され、1回だけフェッチされます。この後
String filename = new String; public void map(LongWritable key, Text values,Context context) { FileSplit fsFileSplit = (FileSplit) context.getInputSplit(); filename = context.getConfiguration().get(fsFileSplit.getPath().getParent().getName())); }
あなたはまた、ファイル名に基づいて(行が読み込ま)の結果を分離するロジックを記述することができます。
- 1. HadoopのMapReduceの複数の入力ファイル
- 2. Hadoop入力ファイル
- 3. 複数のディレクトリから入力ファイルを取得するHadoopジョブ
- 4. 1つの入力ファイルから複数の出力ファイル
- 5. Hadoop MapReduce - 入力ごとに1つの出力ファイル
- 6. Talend:複数の入力ファイルを複数の出力ファイルに
- 7. 1つの入力ファイルの束の複数の出力ファイルに反応する
- 8. Hadoop - 複数の入力の使い方と削減方法
- 9. CプログラミングScanF複数の1つのファイルを入力
- 10. ストリームアナリティック(SA)複数入力と1出力
- 11. 複数の入力フォーマットから縮小するHadoop
- 12. 1つの入力からの複数入力
- 13. 複数の文を入力して1行に入力する
- 14. 複数の入力を1行に入力
- 15. カスタムバイナリ入力 - Hadoop
- 16. 複数のファイル入力フィールドを1つの入力ファイルに追加する方法
- 17. 複数の入力添付ファイルPHP
- 18. Python:ユーザー入力時に1つまたは複数のファイル(コピー)を出力
- 19. 複数の入力と1つの出力でkafkaを使用しますか?
- 20. Hadoopがマッパークラスを見つけることができません
- 21. ニューラルネットワーク複数の入力と1つの出力
- 22. gnuplot:複数の入力ファイルのデータを1つのグラフにプロットする
- 23. jQuery複数の入力と1つの関数RegExp
- 24. Hadoopジョブへの入力としてHadoop Sequentilファイルを読み取る方法は?
- 25. 複数の出力ファイルへのJavaコピー入力
- 26. HadoopのGZIP入力ファイル使用して唯一のマッパー
- 27. 複数の入力文字列の1つのmd5sumのプロセス
- 28. 複数の関数間のファイルの入出力C++
- 29. coxphの複数の入力
- 30. Telegrafテスト入力と出力プラグインエラー複数のconfファイル
[Hadoopプログラムのマッパーで入力ファイル名を取得するにはどうすればいいですか?](http://stackoverflow.com/questions/19012482/how-to-get-the-input-file-name-ハープ・イン・ア・ハープ・プログラム) –