MapFileに出力したいhadoopジョブがありますが、MapFileOutputFormatを持たないhadoop 0.20.203を実行しているクラスタで実行する必要があります。パラレル(それはおそらく非常に)のMapFileにSequenceFileOutputFormat(私は複数のSequenceFilesを含むかもしれないと思う)からの出力を変換するいくつかの方法はありますか? ArrayFileは何ですか(キーがすべて整数で比較的凝縮している場合)MapFileOutputFormat for hadoop 0.20.203
0
A
答えて
1
MapFileOutputFormatは0.20.203にあります。 SequenceFileからMapFileへの変換の必要はありません。
FYIでは、SequenceFileをMapFileに変換するには、SequenceFileを開き、MapFile#fixを使用してSequenceFileのインデックスを作成します。これの先駆けは、SequenceFileの内容をソートする必要があるため、MRジョブを作成することができます。 zipのMapFileFixer.javaにはサンプルコードがあります。
関連する問題
- 1. Hadoop:0.20.203のジョブの連鎖
- 2. Hadoop Documentation for Eclipse
- 3. Hadoop for JSONファイル
- 4. Ec2 + Hadoop for Java app
- 5. XML Serde for Hadoop/Hive
- 6. CDH(Cloudera Distribution for hadoop)はオープンソースですか?
- 7. Hadoop for Business Intelligenceの設計の検討事項
- 8. Hadoop/Hbase:java.lang.NoClassDefFoundError:org/apache/hadoop/hbase/HBaseConfiguration
- 9. Hadoop API VS. Hadoop Streaming
- 10. Hadoop DistributedCacheは、hadoopジョブでステータス
- 11. Hadoop Vs Data Lake
- 12. HadoopでDataNodeが起動しない
- 13. mongo-hadoopを使ってPythonにHadoopストリーミング
- 14. ストリーミングデータとHadoop? (Hadoop Streamingではない)
- 15. Hadoopオンデマンド
- 16. Hadoop DistributedCache
- 17. Hadoopのインストール問題:
- 18. EC2のHadoopのBindException
- 19. Kerberos for Elasticsearch
- 20. hadoop dfs -copyFromLocal src dest
- 21. hadoopでメモリ制限を指定
- 22. For JToggleButtons For For
- 23. メインメソッド内のHadoopコントロールジョブ
- 24. カスタムバイナリ入力 - Hadoop
- 25. Hive(Hadoop)のCOLLECT_SET()
- 26. Hadoop CouchDB Elastic Search
- 27. Hadoop- CDH5許可
- 28. Hadoop入力ファイル
- 29. Hadoop DFSエラー
- 30. Hadoop Pigカウント数
はい、しかし古いスタイルのorg.apache.hadoop.mapred.FileOutputFormatを拡張します http://hadoop.apache.org/common/docs/r0.20.205.0/api/org/とは互換性がありませんapache/hadoop/mapreduce/Job.html#setOutputFormatClass(java.lang.Class) – dspyz
古い/新しいMR APIに関するOPには言及がありませんでした。ところで、古いMR APIにはない新しいMR APIのどの機能を使用していますか?特定の要件がある場合を除き、古いAPIを使用するために移植するのは難しくありません。その他[MapFileOutputFormat](http://svn.apache.org/repos/asf/hadoop/common/trunk/hadoop-mapreduce-project/hadoop-mapreduce-client/hadoop-mapreduce-client-core/src/main/ java/org/apache/hadoop/mapreduce/lib/output/MapFileOutputFormat.java)は、新しいMR APIを使用してトランク内にあります。そのコードでHadoopを構築しようとすることができます。 –
つまり、Job.setOutputFormatClassは、Class <? org.apache.hadoop.mapreduce.OutputFormat> を継承し、MapFileOutputFormat.classはClass <? extends org.apache.hadoop.mapred.OutputFormat> 1つはmapreduce.OutputFormatで、もう1つはmapred.OutputFormatです。彼らは互換性がありません 編集:申し訳ありませんが、Mapperと私はOutputFormatを意味しました – dspyz