私にはMapReduce
を実行するために必要なファイルがCSV
個あります。手前のデータ(Python
または他のツール)に参加してからMapReduce
まで実行するのが最善でしょうか?または最初のMapReduce
を完成させてから.txt
の結果を次のMapReduce
に送り、要約して他のデータセットに結合しますか?私はJava
とHadoop
を使用しており、私がオンラインで見つけた例から何かをまとめました。私は私の個人的なPCのVMでこれを実行しており、Java
とHadoop
に新しいです。MapReduceの結果を別のMapReduceに渡す方法(javaとhadoop)
私はソーシャルメディアのデータを扱っていますが、最初にMapReduce
が投稿されています。投稿IDには不快とフラグが付けられています。今、私はCSV
に参加して、その投稿を投稿したユーザーIDを与え、投稿が不快とフラグされた上位10人のユーザーと、投稿数をカウントします。
私は適切なトラックに私を得るために助けていただきありがとうございます!
としてそれを書くことができますか? MapReduceはファイルのディレクトリ全体を読み取ることができます。それらをマージする必要はありません。第二に、Mapreduceを使用しないでください。少なくとも、Spark(PySpark)やHive(SQLを知っていれば) –
ところで、[HadoopとMapReduceはJavaプログラミングを学ぶ場所ではありません](https://wiki.apache.org/hadoop/HadoopIsNot) –
@ cricket_007、はいすべてのCSVは同じ形式です。私は一緒に必要なものを同じマッパーに持っていきます。リンクをありがとう、私はいくつかのより簡単なJavaも練習します。 – AmyJ