私は、HDFSのブロックサイズが64 MBであることを知っています。しかし、私は新しいHDFSファイルを作成し、それにデータを書き続けると言いましょう。しかし、一度に4KBというわずかなデータを書きます。それは非常に非効率的でしょうか?最終的に私のファイルは1GBのサイズになる可能性がありますが、データを少しずつ書き込んでいくと、そのようなファイルへの書き込みは効率的ではありませんか?つまり、ファイルに書き込む前にデータをバッファリングすることが重要です。この場合、たとえば、64 MBのサイズに達するまでバッファにデータを蓄積した後、HDFSファイルに書き込んでそのバッファをクリアした後にその手順を繰り返すことができます。いくつかの手順でHDFSファイルに書き込むのが効率的ですか?
2
A
答えて
0
最初にHDFSのブロックサイズはあなた次第ですが、デフォルトは設定可能で、HDFSに配置するときに、指定されたファイルに対して異なるブロックサイズを設定することができます。
HDFSにデータを保存するときにデータが手元にない場合は、Flumeを使用してデータジェネレータのソースを設定し、HDFSのファイルにシンクを設定し、細部に苦しんでいる。データがデータベースにある場合は、Sqoopにも切り替えることができます。
それ以外の場合は、実験を行い、パフォーマンステストを行い、どのアプローチが良いかを確認します。データの生成方法と使用方法に大きく依存します。
+0
@pitfa:彼はデータの摂取については質問していないと思います。提案された水路またはスクープアプローチが正しいかもしれません。 –
関連する問題
- 1. HadoopでHDFSのファイルに書き込む
- 2. 多くの行を効率よくファイルに書き込む
- 3. Javaでhdfsにファイルを書き込む
- 4. ファイルに書き込む効率的な方法
- 5. 効率的なファイル保存Cでバイナリファイルに特定のビットを書き込む
- 6. 条件付きでファイルに書き込む最も効率的な方法は?
- 7. Python - 効率的な方法でファイルに書き込むことができますか?
- 8. このDataTableをより効率的に読んでCSVファイルに書き込むことはできますか?
- 9. ファイルからの読み込みの順列を高速かつ効率的に生成できますか?
- 10. 複数の単語にいくつかのビットを書き込むための効率的なアルゴリズム
- 11. Cで効率的にファイルを書き込む大ファイルリストを作成する
- 12. Juliaでcsvファイルにデータを書き込む最も効率的な方法
- 13. ファイルに数値データを効率的に書き込むにはどうすればよいですか?
- 14. 手動でQuickTimeファイルを書き込む
- 15. 大きなNumPy配列をファイルに書き込む効率的な方法
- 16. AndroidでXMLファイルに繰り返し書き込む最も効率的な方法は何ですか?
- 17. Linuxビデオレコーダーで最も効率的なファイル書き込み方法
- 18. SQL:DateTimeでどのように絞り込むのが効率的ですか?
- 19. ファイルにデータを書き込む最も効率的な方法は何ですか?
- 20. gzipファイルから圧縮されていないファイルを書き込むメモリ効率的な方法
- 21. HadoopがHDFSに不完全なファイルを書き込む
- 22. SqoopでMongoDBからデータを抽出し、HDFSに書き込む?
- 23. 大きなファイルから特定の行を効率的に読み込むR
- 24. HDFS内にMetaDataを書き込む
- 25. アルファベット順でないキーを持つcsvファイルにdictを書き込む
- 26. ValaのGLib.OutputStreamにいくつかのバイトを書き込む
- 27. データセットテーブルを読み込むときに効率的な方法は何ですか?
- 28. このjavascriptをより効率的に書くことはできますか?
- 29. キュウリをレールに書き込む方法(ベストプラクティス)。機能と手順
- 30. std :: fstreamがファイルに書き込むのはなぜですか?
ファイルを書き込むためにどの方法を使用していますか? –
はい、「チャンク」で書き出すためにバッファ(または何でも)を使用してください。 –
私は、HDFSへの書き込みにApacheのライブラリを使用しています。 – pythonic