はあなたが圧縮されていないHDFSでスパークログファイルを持っていますが、spark-defaults.conf
にspark.eventLog.compress true
をオンにし、先に行きたかったと言います古いログを圧縮します。マップリダクションの手法は最も理にかなっていますが、1つの方法として次のものを使用することもできます。
snzip -t hadoop-snappy local_file_will_end_in_dot_snappy
次に直接アップロードしてください。 snzipをインストール
は次のようになります:単一ファイルの
sudo yum install snappy snappy-devel
curl -O https://dl.bintray.com/kubo/generic/snzip-1.0.4.tar.gz
tar -zxvf snzip-1.0.4.tar.gz
cd snzip-1.0.4
./configure
make
sudo make install
あなたの往復は次のようになります。
hdfs dfs -copyToLocal /var/log/spark/apps/application_1512353561403_50748_1 .
snzip -t hadoop-snappy application_1512353561403_50748_1
hdfs dfs -copyFromLocal application_1512353561403_50748_1.snappy /var/log/spark/apps/application_1512353561403_50748_1.snappy
またはgohdfsと:
hdfs cat /var/log/spark/apps/application_1512353561403_50748_1 \
| snzip -t hadoop-snappy > zzz
hdfs put zzz /var/log/spark/apps/application_1512353561403_50748_1.snappy
rm zzz
これではありません可能であれば、 'put'はデータを移動します。 –