2017-08-19 3 views
0

私は箱プロットを使って蓄積した情報を見ようとしています。しかし、私は6つのグループのうちの4つが1つのボックスしか持たず、2つのグループしか持たないように見える理由を理解できません。Rとggplotを使用してボックスプロットのボックスの半分しか表示されないのはなぜですか?

コード私は非常にまっすぐ進むです。

sleepData %>% group_by(edu) 

enter image description here

+0

あなたは慎重に見ている場合は、中央値が強調表示されていること、しかし... –

+3

はあり平均(3)で繰り返さ多くの値も及びそうも見ます中央値は最初の四分位数です。 'table(sleepData $ healthScore、sleepData $ edu)'で確認してください。 – G5W

+0

@ G5Wあなたが正しいと思います!迅速な対応のおかげで男! – Jeff

答えて

2

これは中央値(50パーセンタイルは、通常のボックスプロットのボディを通る太い黒線で表される)ということであるように、あなたのボックスプロットが見えた理由と75パーセンタイル(またはボックスプロットの四角いボディの上下限である25パーセンタイル)はまったく同じ値を持ちます。私は以下の例で同じことを説明しようとします。


suppressMessages(library(tidyverse)) 

df <- data.frame(one_box = c(1, 2, 5, 5, 5, 6), 
       two_boxes = c(1, 2, 3, 4, 5, 6)) 

df %>% 
    gather(key, value) %>% 
    group_by(key) %>% 
    summarise(prob = list(c("25%", "50%", "75%")), 
      quant = list(quantile(value, probs = c(0.25, 0.5, 0.5)))) %>% 
    unnest() 
#> # A tibble: 6 x 3 
#>   key prob quant 
#>  <chr> <chr> <dbl> 
#> 1 one_box 25% 2.75 
#> 2 one_box 50% 5.00 
#> 3 one_box 75% 5.00 
#> 4 two_boxes 25% 2.25 
#> 5 two_boxes 50% 3.50 
#> 6 two_boxes 75% 3.50 

df %>% 
    gather(key, value) %>% 
    ggplot(aes(key, value)) + 
    geom_boxplot() 

関連する問題