HadoopとMapreduceを初めて使用しています。 mapreduceを使用して2つのファイルを比較する必要があります。これらのファイルのサイズが非常に大きい(> 10GB)ので、私はmapreduceに行く必要があります。私の質問は、どのように私は異なるマッパーから2つの異なる入力ファイルを取得し、Reducer.Iでこれらの2つのファイルを比較するjarにこのアプリケーションを変換し、Amazon EMRで実行する必要があります。私はこれをWebで適切なチュートリアルを見つけることができません。親切に私にこれを行うためのアイデアを教えてください。Hadoop Mapreduceを使用した2つのExcelファイルの比較
0
A
答えて
0
あなたの状況では分散キャッシュが便利だと思います。私は大きなファイルを持つ分散キャッシュを使用していませんが、それがあなたのために働くかどうかを探って教えてください。ここに私のコメントへのご回答に基づいて
+0
ご返信ありがとうございます。私はそれを試み、あなたに知らせるでしょう。 –
0
は、私はあなたが、プレーン地図-減らす使用してそれを実装している場合、それが行われるべきだと思うかである -
- Excelスプレッドシートを読み込み、カスタムInputFormatを作成します。
- この場合、RecordReaderにはExcelスプレッドシートを読み込み、セルの場所(A1など)をキーとして、その内容をValueとして出力する必要があります。
- ファイルが読み込まれたら、Key(セルの場所)を使用して2つのデータセットに対して内部結合を行う必要があります。
- 投稿を投稿すると、セルの内容を比較できます。
普通のmap-reduceを抽象化するApache PigまたはCascadingの種類を調べると役に立ちます。
よろしく、 アミット
関連する問題
- 1. SSISを使用して2つのMS Excelファイル構造(列)を比較する
- 2. 2を比較マクロを使用してファイルをExcel
- 3. 異なるExcelファイルの2つの列を比較します
- 4. Excel 2つのExcelシートを比較するためのツール
- 5. Excel VBAで2つのワークブックをテキストファイルと比較する比較
- 6. 2つのキーを使用したMapreduce
- 7. hadoop mapreduceを使用したファイル内の相互単語
- 8. perl md5を使用して2つのファイルを比較する
- 9. 2つのCSVファイルを比較し、元
- 10. Excel - Max 2つの配列を比較した後
- 11. hadoop mapreduce 2種類
- 12. PHPを使用した2つのテキストファイルの比較
- 13. 再帰を使用した2つの文字列の比較
- 14. Stream-anyMatchを使用した2つのコレクションの比較
- 15. Excelで2つのリストを比較する(マクロを使用しない場合)
- 16. 2つのファイル "awk"の2つの列を比較します
- 17. 2つのファイルを比較してPythonの違いを比較します
- 18. 2つのXMLファイルを比較
- 19. Pandasで2つのExcelファイルを比較し、2つの列に同じ値を持つ行を返します
- 20. 2つのファイルのデータ比較
- 21. シェルスクリプトを使用して2つのフォルダのファイルを比較します
- 22. 2つの別々のExcelファイルを比較/比較するスクリプト - 両方のエクスポートの違い
- 23. Excel - 2つのドキュメントを比較しますか?
- 24. hadoop mapreduceジョブの入力用gzファイルについて
- 25. Apache StormとHadoopの比較
- 26. difflib.diff_bytesを使ってPythonの2つのファイルを比較する
- 27. Hadoop/MapReduceを使用した接続コンポーネントの検索
- 28. Pythonの2つのファイルを1行ずつ比較します
- 29. HadoopのMapReduceでリレーション名/テーブル名/ファイル名を使用する
- 30. C# - 2つの.txtファイルを使用してテキストを比較/置換する
私はあなたが行でExcelシートの列を比較したいだろうと推測。両方のスプレッドシートに2つのスプレッドシートの行を関連付ける共通の列がありますか? – Amit
Amit、実際には、両方のExcelファイルの各セルを比較する必要があります。私はそれをループすることができます。しかし、その前に私はファイルをExcelに読み込み、それを減速機に送る必要があります –
すぐにマッパーやレデューサーに向かって急いではいけません。各セルの比較は、第1のスプレッドシートのA1と第2のA1の平均を比較していますか?他のスプレッドシートにある他のすべてのセルとA1? – Amit