2016-09-23 2 views
0

我々はそうのようなディレクトリ構造を持っている場合:ロード関係

/hdfs/foo 
/hdfs/foo/foo1 
/hdfs/foo/foo2 

オークのファイルは、foo1のとfoo2はしています。おそらくfooの下にいくつでもサブディレクトリが存在する可能性があります。 (パーティション化されたファイルです)。

サブディレクトリのすべてのファイルをリレーションに読み込むにはどうすればよいですか?

私が試してみた:

relation = LOAD '/hdfs/foo' USING OrcStorage(); 

をこれは私にエラーを与えるものではありませんが、関係はそれが必要データのほとんどを持っていません。私は実際にこれが実際に何をしているのか分かりません。

relation = LOAD '/hdfs/foo*' using OrcStorage(); 

これで、ファイルが見つかりませんでした。

relation = LOAD '/hdfs/foo/*' using OrcStorage(); 

これにより、ファイルが見つかりませんでした。

私は間違っていますか?

答えて

0

Pigでは、グロビング(official document)が読み込まれません。

私たちは何らかのスクリプトを使用してこれを行うか、マニュアルを作成する必要があります。

あなたはOrcStorage()を使用して relation = LOAD '/ hdfs {/ foo/file/foo/foo/file ...}'を実行する必要があります。

0

私はOrcStorage()の問題を疑っています。PigStorage()を試してみました。

関連する問題