大容量ファイルの読み込みパフォーマンスを向上させる方法

メモリに読み込むには大きすぎる.pcapファイルを読み込んで解析する必要があります。大容量ファイルの読み込みパフォーマンスを向上させる方法

customAction(packet): 
    global COUNT 
    COUNT = COUNT + 1 
    # do some other stuff that takes practically 0 time

は現在、これはあまりにもゆっくりとパケットを処理します。私は現在、おおよそ次のようになりますのCustomAction機能をオフラインモードで

sniff(offline=file_in, prn=customAction, store=0)

をスニフを使用しています。私はすでに、異なるコア上の複数のファイルでこのスクリプトを同時に実行するために 'ドライバ'プログラムでサブプロセスを使用していますが、実際にはシングルコアのパフォーマンスを向上させる必要があります。

私はpypyを使用しようとしましたが、python3（anaconda）を使用するよりも10％未満のpypyを使用するとパフォーマンスが落ちてしまいました。 pypyを使用して50Kパケットを実行するための

平均時間は52.54秒

あるのpython3を使用して50Kのパケットを実行する

の平均時間は56.93秒

で物事をスピードアップする方法はありますか？

EDIT：以下はcProfileの結果です。プロファイリング中にコードが少し遅くなっていますが、すべての時間が無駄になります。

66054791 function calls (61851423 primitive calls) in 85.482 seconds 

Ordered by: cumulative time 

ncalls   tottime percall cumtime percall filename:lineno(function) 
957/1    0.017 0.000 85.483 85.483 {built-in method builtins.exec} 
    1    0.001 0.001 85.483 85.483 parser-3.py:1(<module>) 
    1    0.336 0.336 83.039 83.039 sendrecv.py:542(sniff) 
50001    0.075 0.000 81.693 0.002 utils.py:817(recv) 
50001    0.379 0.000 81.618 0.002 utils.py:794(read_packet) 
795097/50003  3.937 0.000 80.140 0.002 base_classes.py:195(__call__) 
397549/50003  6.467 0.000 79.543 0.002 packet.py:70(__init__) 
397545/50000  1.475 0.000 76.451 0.002 packet.py:616(dissect) 
397397/50000  0.817 0.000 74.002 0.001 packet.py:598(do_dissect_payload) 
397545/200039  6.908 0.000 49.511 0.000 packet.py:580(do_dissect) 
199083   0.806 0.000 32.319 0.000 dns.py:144(getfield) 
104043   1.023 0.000 22.996 0.000 dns.py:127(decodeRR) 
397548   0.343 0.000 15.059 0.000 packet.py:99(init_fields) 
397549   6.043 0.000 14.716 0.000 packet.py:102(do_init_fields) 
6673299/6311213 6.832 0.000 13.259 0.000 packet.py:215(__setattr__) 
3099782/3095902 5.785 0.000 8.197 0.000 copy.py:137(deepcopy) 
3746538/2335718 4.181 0.000 6.980 0.000 packet.py:199(setfieldval) 
149866   1.885 0.000 6.678 0.000 packet.py:629(guess_payload_class) 
738212   5.730 0.000 6.311 0.000 fields.py:675(getfield) 
1756450   3.393 0.000 5.521 0.000 fields.py:78(getfield) 
49775    0.200 0.000 5.401 0.000 dns.py:170(decodeRR) 
1632614   2.275 0.000 4.591 0.000 packet.py:191(__getattr__) 
985050/985037  1.720 0.000 4.229 0.000 {built-in method builtins.hasattr} 
326681/194989  0.965 0.000 2.876 0.000 packet.py:122(add_payload) 
...

EDIT 2：完全なコード例：

from scapy.all import * 
from scapy.utils import PcapReader 
import time, sys, logging 


COUNT = 0 
def customAction(packet): 
global COUNT 
COUNT = COUNT + 1 

file_temp = sys.argv[1] 
path  = '/'.join(file_temp.split('/')[:-2]) 
file_in = '/'.join(file_temp.split('/')[-2:]) 
name  = file_temp.split('/')[-1:][0].split('.')[0] 


os.chdir(path) 
q_output_file = 'processed/q_' + name + '.csv' 
a_output_file = 'processed/a_' + name + '.csv' 
log_file  = 'log/' + name + '.log' 

logging.basicConfig(filename=log_file, level=logging.DEBUG) 

t0=time.time() 
sniff(offline=file_in, prn=customAction, lfilter=lambda x:x.haslayer(DNS), store=0) 
t1=time.time() 

logging.info("File '{}' took {:.2f} seconds to parse {} packets.".format(name, t1-t0, COUNT))

出典

2016-07-26 deltap

https://gist.github.com/dpifke/2244911によると、pydyがpython3よりも遅い理由ではないはずです。排除のプロセスによって、明らかな原因はscapy + pypyと思われる。 – deltap

PyPyの具体例を教えてください。 PyPy自体の内部で最適化が不足している可能性もあります（大きなファイルの場合でも）。 –

コードを微調整した後、pypyを使って実行速度を10％向上させることができます。 – deltap

あなたが十分な長さのために実行した場合scapyが高いとPyPyのJITのウォームアップ時間が発生しますが、JITはまだ働いているようです。ここで私は（Linuxの64に）なった結果は以下のとおりです。

size of .pcap  CPython time  PyPy time 
2MB     4.9s    7.3s 
5MB     15.3s    9.1s 
15MB     1m15s    21s

出典

2016-07-29 09:02:05

これらのファイルにはいくつのパケットがありますか？ 50,000パケットのファイルは約8MBで、実行時間はあなたのものよりもかなり長くなります。 – deltap

ログには、12個の「パケット」に近い番号が見られました。繰り返しますが、あなたが知る必要があるすべてを私たちに話していないことを意味します。完全な例を提供してください。インターネット上で公開されている.pcapファイルがあります。 –

私は短い答えはScapyは地獄のようにちょうど遅いということだと思います。私はちょうどsniff（）またはPcapReaderでpcapファイルをスキャンし、パケットで何もしなかった。このプロセスはSSDから3MB/s以下であり、CPU使用率は100％でした。そこにPython用の他のpcapリーダーライブラリがあります。私はそれらの1つを試してみることをお勧めします。

出典

2016-07-29 13:43:58

特定のライブラリについて言及したり示唆しておけば役に立ちます。 – charlesreid1

大容量ファイルの読み込みパフォーマンスを向上させる方法

答えて

関連する問題