HDFSへのパラレルコピー

NFSマウントからのhadoopへの並列コピーを達成するための最良かつ迅速な方法は何ですか？膨大なファイル数のマウントがあり、hdfsにコピーする必要があります。HDFSへのパラレルコピー

一部のオプション

：

実行copyFromLocal
マルチスレッドの方法では、孤立した方法でdistcp使用してください。
地図のみのジョブをコピーしてコピーできますか？

よろしく、 JD

出典

2011-08-13 Jagaran

実際のハードウェアをテストした方が最適な方法でしょう。 – wlk

distap -f を使用する予定です。ソースリストのファイル数は何百万にもなります。私はパフォーマンスがどのようになるのかわかりません:( – Jagaran

M/Rジョブはおそらく最低のパフォーマンスを持つでしょう。なぜそれらをHDFSにコピーする前にマージしたくないのですか？私が仮定しているファイルが何百万もある場合、 – wlk

私は重要な問題は、NFSリンクのソース側にあるものだと思いますか？ NASの場合は、複数のクライアントマシンが同時にcopyFromLocalを実行している状況（それぞれが1つ）である方が良いでしょう。同じクライアントから5〜10台以上のディスクを同時に読み取ると、高パフォーマンスのNASでも不快感を感じます。 > 1つのクライアント - - > 5、10、50、100の並列処理

NAS - > 5クライアント - > 5、10、50、100

NAS：私は（すべてcopyFromLocalで）次のようにモデル化することになります並列プロセスそれぞれ

プロセスの起動コストが高すぎるため、M/Rを避けることになります。ソースNASがどれくらいの負荷をかけられているかを制御できないため、distcpもそうしません。これはあなたのボトルネックになります）。

出典

2015-01-07 03:43:59

HDFSへのパラレルコピー

答えて

関連する問題