ブール値の行の2D配列を使用して別の2D配列をフィルタリングするにはどうすればよいですか？

私は（3、m）配列内にいくつかのデータを持っています。ブール値の行の2D配列を使用して別の2D配列をフィルタリングするにはどうすればよいですか？

私は（n、3）の形のマスクの別の配列を持っています。このマスクの行は、機能を実行する前にデータ配列に適用する必要のあるブール値のフィルタです。フィルタを適用して関数を計算するベクトル化された方法はありますか？

ここでは、関数がmean（）であると仮定して、明快にするためにループを使用する例を示します。私は純粋にナンシー（リストの理解なし）を使ってこれをしたいと思います。

（明らかに、アレイのサイズは実際にははるかに大きい。）

import numpy as np 

data = np.array([ 
     [ 0, 1, 2, 3], 
     [ 4, 5, 6, 7], 
     [ 8, 9, 10, 11] 
    ]) 

masks = np.array([ 
     [True, True, False], 
     [False, True, False], 
     [False, True, True], 
     [True, False, False], 
     [True, False, True] 
    ]) 

means = np.array([data[mask].mean(axis=0) for mask in masks]) 

# means 
array([[ 2., 3., 4., 5.], 
     [ 4., 5., 6., 7.], 
     [ 6., 7., 8., 9.], 
     [ 0., 1., 2., 3.], 
     [ 4., 5., 6., 7.]])

出典

2016-09-19 capitalistcuttle

投稿されたアプローチをすべて試しましたか？誰かがあなたのために働いたのですか？実際の入力設定のようなランタイム番号は何ですか？ – Divakar

謝罪、はい、それらを試してみました。あなたのものは具体的には手段の中で最速だったし、私が下で説明したような放送は他の機能のために働く。 – capitalistcuttle

という問題がを用いmatrix-multiplicationと容易に解決可能である、そのようなものとして、実際に効率的でなければなりません。ここに実装があります -

np.true_divide(masks.dot(data),masks.sum(1)[:,None])

出典

2016-09-19 22:17:46 Divakar

これはビット原油と厄介な感じ、それはループせずに作業を行います。

二つの主要なタスクがあります。

ので、それはmasksでインデックスを作成することができdataを拡大 - （5,4）から（5,3,4）へ
は、行のグループにmeansを適用します。私が見つけられる最も近いものはnp.sum.reduceatです。

reduceatインデックス構築：

In [253]: cnt = masks.sum(axis=1) 
In [254]: cnt1=np.concatenate(([0],np.cumsum(cnt)[:-1])) 
In [255]: cnt 
Out[255]: array([2, 1, 2, 1, 2]) # True count per row 
In [256]: cnt1 
Out[256]: array([0, 2, 3, 5, 6]) # reduceat index positions

はdataとmaskを展開：

In [257]: mdata=data[None,...].repeat(masks.shape[0],0)[masks,:]

add行と分割行数によりグループ毎

を

それが助け場合：

In [263]: mdata 
Out[263]: 
array([[ 0, 1, 2, 3], 
     [ 4, 5, 6, 7], 
     [ 4, 5, 6, 7], 
     [ 4, 5, 6, 7], 
     [ 8, 9, 10, 11], 
     [ 0, 1, 2, 3], 
     [ 0, 1, 2, 3], 
     [ 8, 9, 10, 11]])

Aこのmdataが

In [285]: data[np.where(masks)[1],:] 
Out[285]: 
array([[ 0, 1, 2, 3], 
     [ 4, 5, 6, 7], 
     [ 4, 5, 6, 7], 
     [ 4, 5, 6, 7], 
     [ 8, 9, 10, 11], 
     [ 0, 1, 2, 3], 
     [ 0, 1, 2, 3], 
     [ 8, 9, 10, 11]])

where(...)[1]が我々の行ですmasksにおける真の列位置、あるあるを取得する可能性がより良い方法dataから選択してください。

===========================

@capitalistcuttleも（5,3,4）アレイを作成したが、 False行をゼロにしてreduceatの必要性を回避します。そうすれば、価値に影響を与えることなくmeanまたはsumに入ることができます。これは、マスクされた配列がこのようなタスクをどのように実行するかを思い起こさせます。それらはfillで、0または1のような値を持つマスクされた値は計算に影響しません。

In [322]: data1=data[None,:,:].repeat(5,0) 
In [323]: masks1=masks[:,:,None].repeat(4,-1) 
In [324]: data1.shape, masks1.shape 
Out[324]: ((5, 3, 4), (5, 3, 4))

ことからマスクされた配列行います：

In [325]: madata=np.ma.MaskedArray(data1,~masks1) 
In [326]: madata 
Out[326]: 
masked_array(data = 
[[[0 1 2 3] 
    [4 5 6 7] 
    [-- -- -- --]] 

[[-- -- -- --] 
    [4 5 6 7] 
    [-- -- -- --]] 
... 
[[0 1 2 3] 
    [-- -- -- --] 
    [8 9 10 11]]], 
      mask = 
[[[False False False False] 
    [False False False False] 
    [ True True True True]] 

[[ True True True True] 
    [False False False False] 
    [ True True True True]] 
    ...], 
     fill_value = 999999)

をその触発され

はここMaskedArrayソリューション

が（5,3,4）のサイズにdataとmasksの両方を展開します

今度はmeanメソッドを使用して、0の塗りつぶしを処理し、有効な行の数を調整します。 .data属性は、通常の配列に戻って変換すること

In [327]: madata.mean(axis=1) 
Out[327]: 
masked_array(data = 
[[2.0 3.0 4.0 5.0] 
[4.0 5.0 6.0 7.0] 
[6.0 7.0 8.0 9.0] 
[0.0 1.0 2.0 3.0] 
[4.0 5.0 6.0 7.0]], 
      mask = 
[[False False False False] 
[False False False False] 
[False False False False] 
[False False False False] 
[False False False False]], 
     fill_value = 1e+20)

。

このMaskedArrayアプローチは、より大きい配列を作成するため、おそらく遅くなりますが、より一般的である可能性があります。np.maまたはそのメソッドで定義されている限り、操作を使用できます。

出典

2016-09-19 02:59:33 hpaulj

ので、しばらくの間、それを再生した後、（放送のこの種の平均のために働くと思われる）の関数として、具体的：

means = (masks[:, :, np.newaxis] * data).sum(axis=1)/masks.sum(axis=1)[:, np.newaxis] 

# means 
array([[ 2., 3., 4., 5.], 
     [ 4., 5., 6., 7.], 
     [ 6., 7., 8., 9.], 
     [ 0., 1., 2., 3.], 
     [ 4., 5., 6., 7.]])

そして、もっと一般的に他の機能のために、あなたはどこ（このフォーマットを使用することができます（））は、所望の機能を置き換えることができることを意味：

means = (masks[:, :, np.newaxis] * data).mean(axis=1) * masks.shape[1]/masks.sum(axis=1)[:, np.newaxis] 

# means 
array([[ 2., 3., 4., 5.], 
     [ 4., 5., 6., 7.], 
     [ 6., 7., 8., 9.], 
     [ 0., 1., 2., 3.], 
     [ 4., 5., 6., 7.]])

出典

2016-09-19 04:16:58 capitalistcuttle

これは私の 'tile'や' repeat'のような行を複製しますが、 'False'行をゼロにして' reduceat'を使う必要はありません。 – hpaulj

ブール値の行の2D配列を使用して別の2D配列をフィルタリングするにはどうすればよいですか？

答えて

関連する問題