2013-12-16 25 views
10

data.tableのサブセットを作成するには、より滑らかな方法があるかどうか疑問です。基本的に私は百万行と数百の列を持つ大きなテーブルを持っています。私は、それが私によって定義された範囲の間の値を持つ整数col/sに基づいてそれをサブセット化したいと思う。R:整数列に基づくdata.tableのサブセット化

私は、関連する列をキーとして設定するとバイナリ検索になりますが、値の範囲内で行が見つかるかどうかは分かりませんでした。

次のような実例です。

> n = 1e7 
> dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n)) 
> system.time(subset(dt, a > 1 & a < 2)) 
    user system elapsed 
    1.596 0.000 1.596 
> system.time(dt[a %between% c(1,2)]) 
    user system elapsed 
    1.168 0.000 1.168 

このようなことができますか?

setkey(dt,a) 
dt[ ] : get me the rows between 1 and 2 values of the key 

ありがとうございます! -Abhi

+0

'between 'はコード' x> = lower&x <= upper'を含んでいるので、時間を節約できません。 'dt [a> 1&a <2]'はちょうど同じくらい速くなります –

+0

キーを設定するのはどうですか?私はちょうど私がキーの遠隔検索を行うことができるかどうかわからない私の質問を更新しました。 – Abhi

答えて

1

私はdata.table専門家ではないんだけど、私はそれではなく、ベクタースキャンのバイナリ検索を使用しているためkey検索setkey(dt, b) ; dt['a']が非常に高速である理由は理解して何から。これは、サブセットに2進演算子が必要な数値列では不可能です。あなただけの独立したデータとしてサブセットを保存することができますので、

Index = dt[,a > 1 & a < 2] 
> system.time(dt[Index]) 
    user system elapsed 
    0.23 0.00 0.23 

しかし:、興味深いことに、より速くさえよりも、ある

dt[,Between:=ifelse(a > 1 & a < 2, 'yes', 'no')] 
setkey(dt, Between) 
> system.time(dt['yes']) 
    user system elapsed 
    0.04 0.00 0.03 

唯一の選択肢のような何かをするだろう。とにかく、私はこれが多くのアプリケーションを持って表示されません。

7

ここでsetkeyを実行すると、(参照によって)データを移動する必要があるため、(1.8.11の高速注文を使用する場合でも)費用がかかるでしょう。

ただし、floor機能を使用してこのケースを回避することができます。基本的に、[1,2](注:ここでは1と2を含む)にすべての数値が必要な場合は、floorはこれらすべての値に "1"の値を与えます。それは、あなたが行うことができます:

system.time(t1 <- dt[floor(a) == 1]) 
# user system elapsed 
# 0.234 0.001 0.238 

これはdt[a >= 1 & a <=2]を行うことに相当し、二倍の速さです。あなたが平等を望んでいないので、

system.time(t2 <- dt[a >= 1 & a <= 2]) 
# user system elapsed 
# 0.518 0.081 0.601 

identical(t1,t2) # [1] TRUE 

しかし、あなたは、カラムaから寛容= .Machine$double.eps^0.5を減算するハックを使用することができます。値が[1, 1+tolerance)の範囲にある場合、それはまだ1とみなされます。それがちょうどあれば、それはもはや1ではありません(内部的に)。つまり、マシンが1ではないと識別できる最小の数です。したがって、「a」を許容差で引くと、「1」として内部的に表されるすべての数値は<になり、floor(.)は0になります。範囲> 1と< 2を取得します。すなわち、

は、dt[a>1 & a<2]と同等の結果を返します。


あなたは助けることができる、おそらくそのinteger列にこのfloor機能を持つ新しい列と設定キーを作成し、繰り返しこれを行うにしている場合:

dt[, fa := as.integer(floor(a-.Machine$double.eps^0.5))] 
system.time(setkey(dt, fa)) # v1.8.11 
# user system elapsed 
# 0.852 0.158 1.043 

を今、あなたはどんな範囲を照会することができます

> system.time(dt[J(1L)]) # equivalent to > 1 & < 2 
# user system elapsed 
# 0.071 0.002 0.076 
> system.time(dt[J(1:4)]) # equivalent to > 1 & < 5 
# user system elapsed 
# 0.082 0.002 0.085 
8

をあなたがのキーをを設定しない場合:あなたは、バイナリ検索を使用したいです(私のマシンではn=1e7の場合は14.7秒)、 の時間がかかります。ローリングジョインを使用して、関心領域の開始点と終了点を特定できます。

# thus the following will work. 
dt[seq.int(dt[.(1),.I,roll=-1]$.I, dt[.(2), .I, roll=1]$.I)] 


n = 1e7 
dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n)) 
system.time(setkey(dt,a)) 
# This does take some time 
# user system elapsed 
# 14.72 0.00 14.73 
library(microbenchmark) 
f1 <- function() t1 <- dt[floor(a) == 1] 
f2 <- function() t2 <- dt[a >= 1 & a <= 2] 
f3 <- function() {t3 <- dt[seq.int(dt[.(1),.I,roll=-1]$.I, dt[.(2), .I, roll=1]$.I)] } 
microbenchmark(f1(),f2(),f3(), times=10) 
# Unit: milliseconds 
# expr  min  lq median  uq  max neval 
# f1() 371.62161 387.81815 394.92153 403.52299 489.61508 10 
# f2() 529.62952 536.23727 544.74470 631.55594 634.92275 10 
# f3() 65.58094 66.34703 67.04747 75.89296 89.10182 10 

これは「高速」ですが、以前はキーの設定に時間を費やしていたためです。それは浮動小数点公差の世話をするよう

f4 <- function(tolerance = 1e-7){ # adjust according to your needs 
    start = dt[J(1 + tolerance), .I[1], roll = -Inf]$V1 
    end = dt[J(2 - tolerance), .I[.N], roll = Inf]$V1 
if (start <= end) dt[start:end]} 
microbenchmark(f1(),f2(),f3(),f4(), times=10) 
# Unit: milliseconds 
# expr  min  lq median  uq  max neval 
# f1() 373.3313 391.07479 440.07025 488.54020 491.48141 10 
# f2() 523.2319 530.11218 533.57844 536.67767 629.53779 10 
# f3() 65.6238 65.71617 66.09967 66.56768 83.27646 10 
# f4() 65.8511 66.26432 66.62096 83.86476 87.01092 10 

エディのアプローチをベンチマーキングするために、@のエディのアプローチを追加するには、わずかに安全です。あなたがキーセットを持っている場合は

5

、その後、あなたのデータはソートされて、これだけのエンドポイントを見つけるとの間でポイントを取る:それ以来、これはArunのfloorアプローチよりも少し遅くなります

setkey(dt, a) 
tolerance = 1e-7 # adjust according to your needs 
start = dt[J(1 + tolerance), .I[1], roll = -Inf]$V1 
end = dt[J(2 - tolerance), .I[.N], roll = Inf]$V1 
if (start <= end) dt[start:end] 

2つのジョインがありますが、プラス側では好きな番号を入力できます。

+0

ローリングジョインでは単一の戻り値しか生成されないので、 '[1]' '[.N]'サブセットを避けることができます。 – mnel

+1

'roll'は遅かれ早かれロールアウトされると確信しました:) – Arun

+1

@mnel実際にはそうではありません。' data.table(a = c(1,1,1)、key = 'a')[J( 1)、roll = Inf] ' – eddi

関連する問題