1
NFSマウントからのhadoopへの並列コピーを達成するための最良かつ迅速な方法は何ですか? 膨大なファイル数のマウントがあり、hdfsにコピーする必要があります。HDFSへのパラレルコピー
一部のオプション:
- 実行copyFromLocal
- マルチスレッドの方法では、孤立した方法でdistcp使用してください。
- 地図のみのジョブをコピーしてコピーできますか?
よろしく、 JD
NFSマウントからのhadoopへの並列コピーを達成するための最良かつ迅速な方法は何ですか? 膨大なファイル数のマウントがあり、hdfsにコピーする必要があります。HDFSへのパラレルコピー
一部のオプション:
よろしく、 JD
私は重要な問題は、NFSリンクのソース側にあるものだと思いますか? NASの場合は、複数のクライアントマシンが同時にcopyFromLocalを実行している状況(それぞれが1つ)である方が良いでしょう。同じクライアントから5〜10台以上のディスクを同時に読み取ると、高パフォーマンスのNASでも不快感を感じます。 > 1つのクライアント - - > 5、10、50、100の並列処理
プロセスの起動コストが高すぎるため、M/Rを避けることになります。ソースNASがどれくらいの負荷をかけられているかを制御できないため、distcpもそうしません。これはあなたのボトルネックになります)。
実際のハードウェアをテストした方が最適な方法でしょう。 – wlk
distap -fを使用する予定です。ソースリストのファイル数は何百万にもなります。私はパフォーマンスがどのようになるのかわかりません:( –
Jagaran
M/Rジョブはおそらく最低のパフォーマンスを持つでしょう。なぜそれらをHDFSにコピーする前にマージしたくないのですか?私が仮定しているファイルが何百万もある場合、 – wlk