2016-04-08 5 views
1

私はPIGスクリプティングを初めて使用していましたが、私は10個までの条件でラダーを実行する必要があるという要件がありました。 私はどの知識から3値演算子しか持っていませんでした。 - (条件:statement1?(条件:statement 2?statement 3))カスケードされた組み込み関数に対する豚の効率

データサイズは数千万行にもなります私の要件に合わせてUDFを作成することに努力しています。

パフォーマンス上の問題が発生した場合は、最終的には努力しても意味がありません。

私の知るところでは、UDFへの呼び出しは各行ごとに考慮され、百万レコードの再帰呼び出しは深刻なオーバーヘッドです。

答えて

1

大規模なクラスタにアクセスできない場合、UDFは問題ではなく、スクリプトの可読性が向上すると思います。 最後に、あなたのスクリプトもJava実行可能ファイルにコンパイルされます。 高価な操作の前にデータをフィルタリングすることができれば、パフォーマンスの最大の勝利です。

+0

ありがとうございましたKecso、私は同じことをやって、データの不要な属性を削除し、複雑なロジックを実行しましたが、コードは少し良くなりました。 –

関連する問題