非常に大きなデータセット(ほぼ1テラバイト)内で1つの変数(var_1
と呼ぶ)を合計しようとしているとします。データセットは長くて広いです。私のコードは次のようになります。SASデータセットのKEEPオプションを使用すると、読み取りパフォーマンスが向上しますか?
PROC MEANS DATA=my_big_dataset SUM;
VAR var_1;
RUN;
は私が読まれたデータセットにKEEP
オプションを使用して、まったくのパフォーマンスゲインを得るだろうか?それは次のとおりです。ディスクの面では
PROC MEANS DATA=my_big_dataset (KEEP=var_1) SUM;
VAR var_1;
RUN;
I/O、Iは、各レコードはどんな全体を読まれてはならないことを想像してみてください。しかし、レコードを読むために割り当てられるメモリが少なくて済むかもしれません。アドバイスをいただければ幸いです。
良い提案 - 私はこのセットからの次のいくつかの大きな読書の過程でいくつかのベンチマークを試みようとします。 –