2016-05-06 2 views
0

私はhdfsディレクトリ構造を変更しています。 現在の1は次のとおりです。私は、毒ヘビにかまれた傷のPythonのHDFSライブラリを使用するように考えディレクトリの移動とマージ

.../customers/2016-05-16-10/lots_of_files1.csv 
.../customers/2016-05-16-10/lots_of_files2.csv 
.../customers/2016-05-16-10/lots_of_files1(1).csv 

が、エッジがたくさん:私は、顧客(1-7)を取り除くしたいと思います

.../customers/customers1/2016-05-16-10/lots_of_files1.csv 
.../customers/customers2/2016-05-16-10/lots_of_files2.csv 
.../customers/customers3/2016-05-16-10/lots_of_files1.csv 
.../customers/customers4/2016-05-16-10/... 
.../customers/customers5/2016-05-16-10/... 
.../customers/customers6/2016-05-16-10/... 
.../customers/customers7/2016-05-16-10/... 

ケースが発生する: 1.同じ日付が複数回表示されることがあります。 2. csvの名前は複数回出現することがありますが、データは異なり、移動する必要があります。

どのようにできるだけクリーンな方法で実現していますか?

答えて

0

ファイル名を保存する心配がなければ、簡単にApache Drillを使用できます。 Apache DrillはSQLを介してファイルの読み書きをサポートしています。

create table dfs.`/myfolder/customers/2016-05-16-10` select * from dfs.`/myfolder/customers` where dir1 = '2016-05-16-10'; 

のようないくつかの事のすべてのファイルから/ */2016-05-16-10テーブルをターゲットに書き込まれます。

https://drill.apache.org/docs/

+0

同じ名前のcsvsはどのように処理されますか? @vgunnu – TheSilence

+0

そのフォルダ内のすべてのファイルを新しいファイルにマージします。ハイブに似て – vgunnu

関連する問題