2011-08-13 7 views
1

NFSマウントからのhadoopへの並列コピーを達成するための最良かつ迅速な方法は何ですか? 膨大なファイル数のマウントがあり、hdfsにコピーする必要があります。HDFSへのパラレルコピー

一部のオプション

  1. 実行copyFromLocal
  2. マルチスレッドの方法では、孤立した方法でdistcp使用してください。
  3. 地図のみのジョブをコピーしてコピーできますか?

よろしく、 JD

+0

実際のハードウェアをテストした方が最適な方法でしょう。 – wlk

+0

distap -f を使用する予定です。ソースリストのファイル数は何百万にもなります。私はパフォーマンスがどのようになるのかわかりません:( – Jagaran

+0

M/Rジョブはおそらく最低のパフォーマンスを持つでしょう。なぜそれらをHDFSにコピーする前にマージしたくないのですか?私が仮定しているファイルが何百万もある場合、 – wlk

答えて

1

私は重要な問題は、NFSリンクのソース側にあるものだと思いますか? NASの場合は、複数のクライアントマシンが同時にcopyFromLocalを実行している状況(それぞれが1つ)である方が良いでしょう。同じクライアントから5〜10台以上のディスクを同時に読み取ると、高パフォーマンスのNASでも不快感を感じます。 > 1つのクライアント - - > 5、10、50、100の並列処理

  • NAS - > 5クライアント - > 5、10、50、100

    • NAS:私は(すべてcopyFromLocalで)次のようにモデル化することになります並列プロセスそれぞれ

    プロセスの起動コストが高すぎるため、M/Rを避けることになります。ソースNASがどれくらいの負荷をかけられているかを制御できないため、distcpもそうしません。これはあなたのボトルネックになります)。

  • 関連する問題