大規模なデータセットの1分あたりの発生数を計算する方法

私は500kの予定が5〜60分のデータセットを持っています。大規模なデータセットの1分あたりの発生数を計算する方法

tdata <- structure(list(Start = structure(c(1325493000, 1325493600, 1325494200, 1325494800, 1325494800, 1325495400, 1325495400, 1325496000, 1325496000, 1325496600, 1325496600, 1325497500, 1325497500, 1325498100, 1325498100, 1325498400, 1325498700, 1325498700, 1325499000, 1325499300), class = c("POSIXct", "POSIXt"), tzone = "GMT"), End = structure(c(1325493600, 1325494200, 1325494500, 1325495400, 1325495400, 1325496000, 1325496000, 1325496600, 1325496600, 1325496900, 1325496900, 1325498100, 1325498100, 1325498400, 1325498700, 1325498700, 1325499000, 1325499300, 1325499600, 1325499600), class = c("POSIXct", "POSIXt"), tzone = "GMT"), Location = c("LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationA", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB", "LocationB"), Room = c("RoomA", "RoomA", "RoomA", "RoomA", "RoomB", "RoomB", "RoomB", "RoomB", "RoomB", "RoomB", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA", "RoomA")), .Names = c("Start", "End", "Location", "Room"), row.names = c(NA, 20L), class = "data.frame")

> head(tdata) 
       Start     End Location Room 
1 2012-01-02 08:30:00 2012-01-02 08:40:00 LocationA RoomA 
2 2012-01-02 08:40:00 2012-01-02 08:50:00 LocationA RoomA 
3 2012-01-02 08:50:00 2012-01-02 08:55:00 LocationA RoomA 
4 2012-01-02 09:00:00 2012-01-02 09:10:00 LocationA RoomA 
5 2012-01-02 09:00:00 2012-01-02 09:10:00 LocationA RoomB 
6 2012-01-02 09:10:00 2012-01-02 09:20:00 LocationA RoomB

I場所ごと、および部屋あたり合計同時予定、（デオリジナルデータセット内のいくつかの他の要因）の数を計算したいです。

私は小さなデータセットのために働く、左結合を実行するためにmysqlパッケージを使用してみましたが、データセット全体のために永遠に取りいます

# SQL Join. start.min <- min(tdata$Start, na.rm=T) end.max <- max(tdata$End, na.rm=T) tinterval <- seq.POSIXt(start.min, end.max, by = "mins") tinterval <- as.data.frame(tinterval) library(sqldf) system.time( output <- sqldf("SELECT * FROM tinterval LEFT JOIN tdata ON tinterval.tinterval >= tdata.Start AND tinterval.tinterval < tdata.End ")) head(output) tinterval Start End Location Room 1 2012-01-02 09:30:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA 2 2012-01-02 09:31:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA 3 2012-01-02 09:32:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA 4 2012-01-02 09:33:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA 5 2012-01-02 09:34:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA 6 2012-01-02 09:35:00 2012-01-02 09:30:00 2012-01-02 09:40:00 LocationA RoomA

それはどこのすべての「アクティブ」の予定データフレームを作成し、 1分ごとにリストされます。大規模なデータセットは年間を通して（〜525600分）扱われます。平均任用時間は18分で、SQL結合で〜500万行のデータセットを作成することができます。これを使用して、さまざまな要因（場所/部屋など）の占有率プロットを作成できます。

建物sapplyソリューションに次のように私はdata.tableとsnowfallを使用してみましたHow to count number of concurrent usersで提案されている：

require(snowfall) require(data.table) sfInit(par=T, cpu=4) sfLibrary(data.table) tdata <- data.table(tdata) tinterval <- seq.POSIXt(start.min, end.max, by = "mins") setkey(tdata, Start, End) sfExport("tdata") # "Transport" data to cores system.time(output <- data.frame(tinterval,sfSapply(tinterval, function(i) length(tdata[Start <= i & i < End,Start])))) > head(output) tinterval sfSapply.tinterval..function.i..length.tdata.Start....i...i... 1 2012-01-02 08:30:00 1 2 2012-01-02 08:31:00 1 3 2012-01-02 08:32:00 1 4 2012-01-02 08:33:00 1 5 2012-01-02 08:34:00 1 6 2012-01-02 08:35:00 1

このソリューションは、高速で、1日を計算するために〜18秒かかります（年間で約2時間）。欠点は、特定の要因（場所、部屋など）の同時予約の数のサブセットを作成できないことです。私はこれを行うためのよりよい方法がなければならないという気持ちを持っています。

更新：最終的な解決策は、Geoffreyの回答に基づいています。この例は、各場所の占有率をどのように決定できるかを示しています。

setkey(tdata, Location, Start, End) vecTime <- seq(from=tdata$Start[1],to=tdata$End[nrow(tdata)],by=60) res <- data.frame(time=vecTime) for(i in 1:length(unique(tdata$Location))) { addz <- array(0,length(vecTime)) remz <- array(0,length(vecTime)) tdata2 <- tdata[J(unique(tdata$Location)[i]),] # Subset a certain location. startAgg <- aggregate(tdata2$Start,by=list(tdata2$Start),length) endAgg <- aggregate(tdata2$End,by=list(tdata2$End),length) addz[which(vecTime %in% startAgg$Group.1)] <- startAgg$x remz[which(vecTime %in% endAgg$Group.1)] <- -endAgg$x res[,c(unique(tdata$Location)[i])] <- cumsum(addz + remz) } > head(res) time LocationA LocationB 1 2012-01-01 03:30:00 1 0 2 2012-01-01 03:31:00 1 0 3 2012-01-01 03:32:00 1 0 4 2012-01-01 03:33:00 1 0 5 2012-01-01 03:34:00 1 0 6 2012-01-01 03:35:00 1 0

出典

2013-06-18 TimV

有益な回答を選んでいただければ幸いです。ちょうどポインタ。 – Arun

これはこれより優れていますか？

空の時間ベクトルと空のカウントベクトルを作成します。

vecTime <- seq(from=tdata$Start[1],to=tdata$End[nrow(tdata)],by=60) 
addz <- array(0,length(vecTime)) 
remz <- array(0,length(vecTime)) 


startAgg <- aggregate(tdata$Start,by=list(tdata$Start),length) 
endAgg <- aggregate(tdata$End,by=list(tdata$End),length) 
addz[which(vecTime %in% startAgg$Group.1)] <- startAgg$x 
remz[which(vecTime %in% endAgg$Group.1)] <- -endAgg$x 
res <- data.frame(time=vecTime,occupancy=cumsum(addz + remz))

出典

2013-06-18 12:40:14

Geoffreyありがとうございますが、これは一定期間アクティブな予定の数を数えません。これは、9時に開始する2つの予定がありますが、アクティブな予定は考慮されていないことを示しています（既に開始されていますが終了していません）。私は本当に忙しい時代のピークを勉強できるように、1分あたりの占有率が必要です。 – TimV

Hee Goeffrey、あなたのソリューションは私の全データセットで9秒かかりました。私はこれと何時間も闘ってきました。あなたのご意見をありがとうございます。私は間違った方向を見ていました。予定の開始時刻と終了時刻を集計し、それに基づいて占有率を決定するのは本当に賢かったです。計算のスピードを考えると、ロケーションごとまたは部屋ごとに占有率をいくつかのforループで構築することができるので、私は自分の質問に答えていると考えます。 – TimV

私はあなたの目標を理解しています。それでも、これは役に立つかもしれません：

#I changed the example to actually have concurrent appointments 
DF <- read.table(text="    Start,     End, Location, Room 
1, 2012-01-02 08:30:00, 2012-01-02 08:40:00, LocationA, RoomA 
2, 2012-01-02 08:40:00, 2012-01-02 08:50:00, LocationA, RoomA 
3, 2012-01-02 08:50:00, 2012-01-02 09:55:00, LocationA, RoomA 
4, 2012-01-02 09:00:00, 2012-01-02 09:10:00, LocationA, RoomA 
5, 2012-01-02 09:00:00, 2012-01-02 09:10:00, LocationA, RoomB 
6, 2012-01-02 09:10:00, 2012-01-02 09:20:00, LocationA, RoomB",header=TRUE,sep=",",stringsAsFactors=FALSE) 

DF$Start <- as.POSIXct(DF$Start,format="%Y-%d-%m %H:%M:%S",tz="GMT") 
DF$End <- as.POSIXct(DF$End,format="%Y-%d-%m %H:%M:%S",tz="GMT") 

library(data.table) 
DT <- data.table(DF) 
DT[,c("Start_num","End_num"):=lapply(.SD,as.numeric),.SDcols=1:2] 

fun <- function(s,e) { 
    require(intervals) 
    mat <- cbind(s,e) 
    inter <- Intervals(mat,closed=c(FALSE,FALSE),type="R") 
    io <- interval_overlap(inter, inter) 
    tablengths <- table(sapply(io,length))[-1] 
    sum(c(0,as.vector(tablengths/as.integer(names(tablengths))))) 
} 

#number of overlapping events per room and location 
DT[,fun(Start_num,End_num),by=list(Location,Room)] 
#  Location Room V1 
#1: LocationA RoomA 1 
#2: LocationA RoomB 0

私はこれをテストしませんでした。特にスピードはありませんでした。

出典

2013-06-18 13:12:39 Roland

ありがとうroland。興味深いアプローチでしたが、私は1分あたりの総占有率を探していて、LocationとRoomの占有率をサブセット化することができました。 – TimV

これは戦略です。開始時間順に並べ替え、次に開始、終了、開始、終了、...を行ってデータをリストから外し、そのベクトルを並べ替える必要があるかどうかを確認します。そうでなければ、競合はなく、もしあなたが何人のアポイントメント（そしてあなたが好きなら、どのアポイントメント）が互いに衝突しているかを見ることができます。おそらく、上記の指標を修正するために比類のないオーダーから行くための式を簡素化することができる

# Using Roland's example: 
DF <- read.table(text="    Start,     End, Location, Room 
1,2012-01-02 08:30:00,2012-01-02 08:40:00,LocationA,RoomA 
2,2012-01-02 08:40:00,2012-01-02 08:50:00,LocationA,RoomA 
3,2012-01-02 08:50:00,2012-01-02 09:55:00,LocationA,RoomA 
4,2012-01-02 09:00:00,2012-01-02 09:10:00,LocationA,RoomA 
5,2012-01-02 09:00:00,2012-01-02 09:10:00,LocationA,RoomB 
6,2012-01-02 09:10:00,2012-01-02 09:20:00,LocationA,RoomB",header=TRUE,sep=",",stringsAsFactors=FALSE) 

dt = data.table(DF) 

# the conflicting appointments 
dt[order(Start), 
    .SD[unique((which(order(c(rbind(Start, End))) != 1:(2*.N)) - 1) %/% 2 + 1)], 
    by = list(Location, Room)] 
# Location Room    Start     End 
#1: LocationA RoomA 2012-01-02 08:50:00 2012-01-02 09:55:00 
#2: LocationA RoomA 2012-01-02 09:00:00 2012-01-02 09:10:00 

# and a speedier version of the above, that avoids constructing the full .SD: 
dt[dt[order(Start), 
     .I[unique((which(order(c(rbind(Start, End))) != 1:(2*.N)) - 1) %/% 2 + 1)], 
     by = list(Location, Room)]$V1]

、私はそれについて考えてあまりにも多くの時間を費やすだけ仕事を得た最初のものを使用していませんでした。

出典

2013-06-18 15:18:30 eddi

大規模なデータセットの1分あたりの発生数を計算する方法

答えて

関連する問題