2016-10-14 5 views
0

豚スクリプトを使用してHDFSで私のファイルの最初と最後の行/行を削除します。私はランクを使用してこれを達成しようとしたが、それは働いたが、それを削除する最後のランク数を知っている必要がありますが、私のファイルは、それは多かれ少なかれ行を持つことができる動的です。助けてください豚スクリプトを使用してファイルの最初と最後の行を削除する

EDIT: 私のデータはので、私は、スキーマを作成することはできません巨大で、グループ彼らはMINを使用することはできません()これをどのように達成するために

答えて

2

ランクが利用可能になったら、除外する最初と最後のランク(つまり、ファイルの最初と最後の行)をMINとMAXの評価関数の平均で取得できます。この方法では、ランクフィルターをハードコードする必要はありません。 Eval function MAX

  1. Eval function MIN

注:これは豚のバージョン0.16.0のためです。

+0

これを達成するために他の方法がありますか? – animal

+0

私のデータは膨大です。私はスキーマを作成してグループ化することはできません。その場合、Minは私のために働いていません。 – animal

+1

警告、ロードの最初または最後の行が削除されます。複数のファイルがあるディレクトリでloadを使用してロードする場合は、目的の結果を得るためにより複雑なテクニックが必要です。 –

関連する問題