重複する行（インデックス）の一致/グループ

重複する行のインデックスを効率的に照合/グループ化するにはどうすればよいですか？重複する行（インデックス）の一致/グループ

のは、私は、このデータセットがあるとしましょう：私は

which_duplicated <- function(dat){ 
    which(duplicated(dat) | duplicated(dat[nrow(dat):1, ])[nrow(dat):1]) 
} 

which_duplicated(dat) 

## [1] 1 2 3 4 5 6 7 8 9 10 11 13

を使用して（最初の重複を含む）の複製のすべてのインデックスを見つけることができます

set.seed(14) 
dat <- data.frame(mtcars[sample(1:5, 14, TRUE), ])[sample.int(14), ] 
rownames(dat) <- NULL 
dat 

##  mpg cyl disp hp drat wt qsec vs am gear carb 
## 1 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 
## 2 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 
## 3 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 
## 4 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 
## 5 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 
## 6 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 
## 7 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 
## 8 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 
## 9 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 
## 10 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 
## 11 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 
## 12 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 
## 13 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 
## 14 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4

をしかし、私は一致することができるようにしたいです

list(
    c(2, 13), 
    c(1, 4, 5, 6, 9), 
    c(3, 7, 8, 10, 11) 
)

これを効率的に行うにはどうすればよいですか？

出典

2015-12-16 Tyler Rinker

遅いが 'フィルタ（関数（x）は、長さ（X）> 1、（DAT、as.list（DAT）によって、rownames））' – rawr

ここで「data.table」使用可能です：

library(data.table) 
as.data.table(dat)[, c("GRP", "N") := .(.GRP, .N), by = names(dat)][ 
        N > 1, list(list(.I)), by = GRP] 
## GRP    V1 
## 1: 1  1,4,5,6,9 
## 2: 2   2,13 
## 3: 3 3, 7, 8,10,11

基本的な考え方は、コラムその「グループ」の他の列（.GRPを使用して）だけでなく、どのように多くの重複をカウント列を作成することです（.Nを使用して）行があり、複数の重複があるものをフィルタリングし、 "GRP"列をlistに入れます。

出典

2015-12-16 14:36:59 A5C1D2H2I1M1N2O1R2T1

dplyrを使用できます。 @ AnandaMahtoのポストと同様の方法を使用して、行インデックスの列名（add_rownames(）を作成し、すべての列でグループ化します。filter各グループの行数が1より大きいデータセットsummarise 'rowname'をlistに、そのlist列を抽出します。

library(dplyr) 
add_rownames(dat) %>% 
     group_by_(.dots= names(dat)) %>% 
     filter(n()>1) %>% 
     summarise(rn= list(rowname))%>% 
     .$rn 
#[[1]] 
#[1] "3" "7" "8" "10" "11" 

#[[2]] 
#[1] "2" "13" 

#[[3]] 
#[1] "1" "4" "5" "6" "9"

出典

2015-12-16 14:44:29 akrun

両溶液は、私が持っていないであろう優れた（同じロジックであります私自身の考え）と効率的です。彼は最初に論理を持っているので、緑のダニでAnandaのソリューションをマークしました。ありがとう+1 –

重複する行（インデックス）の一致/グループ

答えて

関連する問題