カスタムJARを使用してElastic MapReduce(EMR)でジョブを実行しようとしています。私は約1000のファイルを1つのディレクトリで処理しようとしています。パラメータs3n://bucketname/compressed/*.xml.gz
でジョブを送信すると、「一致する0ファイル」エラーが発生します。ファイルへの絶対パス(例:s3n://bucketname/compressed/00001.xml.gz
)だけを渡すと正常に動作しますが、1つのファイルしか処理されません。ディレクトリの名前(s3n://bucketname/compressed/
)を使用して、そのファイルが処理されることを期待しましたが、そのディレクトリをジョブに渡すだけです。Amazon Elastic MapReduceに複数のファイルが入力されています
同時に、私はより小さなローカルハープインストールを持っています。それで、ワイルドカード(/path/to/dir/on/hdfs/*.xml.gz
)で私の仕事に合格すると、正常に動作し、1000個のファイルがすべて正しくリストされます。
すべてのファイルを一覧表示するにはどうすればよいですか?
また、コードからs3のディレクトリ内のファイルをリストする方法はありますか?私はそれらのファイルからパスを生成することができます。 –
それは今作動する!同じバケツに 'compressed'という空のファイルがありました。空のファイルを削除するとすぐに、プログラムが動作し始めました。 –