numpy/scipyを使用して、異なるサイズのサブリストでネストされたリストを平坦化するにはどうすればよいですか?スピードは非常に重要で、リストは大きいです。可変サイズのサブリストのネストされたリストをSciPy配列にまとめる
lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]
これより速いものはありますか?
vec = sp.array(list(*chain(lst)))
numpy/scipyを使用して、異なるサイズのサブリストでネストされたリストを平坦化するにはどうすればよいですか?スピードは非常に重要で、リストは大きいです。可変サイズのサブリストのネストされたリストをSciPy配列にまとめる
lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]
これより速いものはありますか?
vec = sp.array(list(*chain(lst)))
方法についてnp.fromiter:
In [49]: %timeit np.hstack(lst*1000)
10 loops, best of 3: 25.2 ms per loop
In [50]: %timeit np.array(list(chain.from_iterable(lst*1000)))
1000 loops, best of 3: 1.81 ms per loop
In [52]: %timeit np.fromiter(chain.from_iterable(lst*1000), dtype='int')
1000 loops, best of 3: 1 ms per loop
vec = sp.array(list(chain.from_iterable(lst)))
これは、反復可能で、多くのサブリストを持っている場合は処理するために非常に高価である*
を使用して回避。しかし、これはquadratic reallocationの原因となること
vec = sp.array(sum(lst, []))
注:
他のオプションはsum
リストにあるかもしれません。私が手に私のマシン上で
def sum_lists(lst):
if len(lst) < 2:
return sum(lst, [])
else:
half_length = len(lst) // 2
return sum_lists(lst[:half_length]) + sum_lists(lst[half_length:])
:
>>> L = [[random.randint(0, 500) for _ in range(x)] for x in range(10, 510)]
>>> timeit.timeit('sum(L, [])', 'from __main__ import L', number=1000)
168.3029818534851
>>> timeit.timeit('sum_lists(L)', 'from __main__ import L,sum_lists', number=1000)
10.248489141464233
>>> 168.3029818534851/10.248489141464233
16.422223757114615
あなたは、16倍速アップを見ることができるように、このようなものは、より良い多くを実行します。 chain.from_iterable
はさらに高速です。
>>> timeit.timeit('list(itertools.chain.from_iterable(L))', 'import itertools; from __main__ import L', number=1000)
1.905594825744629
>>> 10.248489141464233/1.905594825744629
5.378105042586658
他の6倍のスピードアップです。
私はnumpyのを知らない、 "純粋な-pythonの" 解決策を探しました。私は確信している Abhijitあなたの場合、unutbu/senderleの解決策があります。
あなたはnumpy.hstack
>>> lst = [[1, 2, 3, 4],[2, 3],[1, 2, 3, 4, 5],[4, 1, 2]]
>>> np.hstack(lst)
array([1, 2, 3, 4, 2, 3, 1, 2, 3, 4, 5, 4, 1, 2])
方法についてはしようと試みることができる:
np.hstack(lst)
イテレータがにあるからnumpyの配列を作成する最速の方法numpy.fromiter
:
>>> %timeit numpy.fromiter(itertools.chain.from_iterable(lst), numpy.int64)
100000 loops, best of 3: 3.76 us per loop
>>> %timeit numpy.array(list(itertools.chain.from_iterable(lst)))
100000 loops, best of 3: 14.5 us per loop
>>> %timeit numpy.hstack(lst)
10000 loops, best of 3: 57.7 us per loop
ご覧のとおり、これはリストに変換するよりも速く、hstack
よりはるかに高速です。
リストに
>>> flatten = lambda x: [y for l in x for y in flatten(l)] if type(x) is list else [x]
>>> flatten(lst)
を平坦化する機能を使用して、