2012-02-13 13 views
0

amazon ec2でhadoopクラスタを起動し、数万ファイルをダウンロードして後で処理することを考えていますが、大変な作業をしたいと思います私よりもハープで経験が豊富な人はそれが可能だと思いますか?私はhadoopの奴隷にファイルをダウンロードできることに疑問を持っています。Amazon EC2 Hadoopで多数の大きなファイルをダウンロード

これが可能だと思うなら、amazon ec2で動作する各スレーブが異なるIPアドレスを持つと期待できますか?

私は仕事のほとんどを行うためにpythonを使用したいと思います(例えば、ダウンロード用のurllib2モジュール)、できるだけ小さなJavaを使用したいと思います。

+0

もちろん可能です。ファイルは[HDFS](http://hadoop.apache.org/common/docs/current/hdfs_user_guide.html)に直接ダウンロードできます。 –

答えて

0

ec2でhadoopにデータをダウンロードすることが可能です。 Hadoopには分散ファイルシステム(HDFS)があり、スレーブにデータブロックを配置し、設定で指定されているレプリケーションファクタを尊重します。

ec2のスレーブは、異なるIPアドレスを持ちます。

関連する問題