0
私はhdfsディレクトリ構造を変更しています。 現在の1は次のとおりです。私は、毒ヘビにかまれた傷のPythonのHDFSライブラリを使用するように考えディレクトリの移動とマージ
.../customers/2016-05-16-10/lots_of_files1.csv
.../customers/2016-05-16-10/lots_of_files2.csv
.../customers/2016-05-16-10/lots_of_files1(1).csv
が、エッジがたくさん:私は、顧客(1-7)を取り除くしたいと思います
.../customers/customers1/2016-05-16-10/lots_of_files1.csv
.../customers/customers2/2016-05-16-10/lots_of_files2.csv
.../customers/customers3/2016-05-16-10/lots_of_files1.csv
.../customers/customers4/2016-05-16-10/...
.../customers/customers5/2016-05-16-10/...
.../customers/customers6/2016-05-16-10/...
.../customers/customers7/2016-05-16-10/...
ケースが発生する: 1.同じ日付が複数回表示されることがあります。 2. csvの名前は複数回出現することがありますが、データは異なり、移動する必要があります。
どのようにできるだけクリーンな方法で実現していますか?
同じ名前のcsvsはどのように処理されますか? @vgunnu – TheSilence
そのフォルダ内のすべてのファイルを新しいファイルにマージします。ハイブに似て – vgunnu