2017-02-19 8 views
0

私は異なるデータセットの最初の桁の分布を比較しようとしていますが、ggplot2を使ってそれらを実証する方法はありません。誰もが "生データ"の例を使用し、確率は使用しません。上記ggplot2確率分布を比較するためのヒストグラムまたはポリゴン

0.37101911 0.17515924 0.08917197 0.08121019 0.06210191 0.06050955 0.07484076 0.03662420 0.04936306 
0.524419536 0.253002402 0.092073659 0.032826261 0.025620496 0.019215372 0.008807046 0.012009608 0.032025620 

確率:これは、2つのデータセットの最初の桁の分布である

0.30103000 0.17609126 0.12493874 0.09691001 0.07918125 0.06694679 0.05799195 0.05115252 0.04575749 

これは、所望の第1の桁の分布(私のベンチマーク)である:ここで私のデータの一部であります最初の数字1,2、...、9の確率に対応します。

上記の確率を見つけるために使用するパッケージの発行者が作成したプロットがあります。

1st Dataset first-digit Distribution (the red line is my "benchmark")

答えて

1

あなたが確率を事前に計算しておりますので、あなたはgeom_lineでそれらをプロットすることができます。完璧に動作

dat = read.table(text="0.30103000 0.17609126 0.12493874 0.09691001 0.07918125 0.06694679 0.05799195 0.05115252 0.04575749 

       0.37101911 0.17515924 0.08917197 0.08121019 0.06210191 0.06050955 0.07484076 0.03662420 0.04936306 
       0.524419536 0.253002402 0.092073659 0.032826261 0.025620496 0.019215372 0.008807046 0.012009608 0.032025620", header=FALSE) 
dat = setNames(as.data.frame(t(dat)), c("Reference", "D1","D2")) 
dat$digits = 1:9 

library(ggplot2) 
library(reshape2) 

ggplot(melt(dat, id.var="digits"), aes(digits, value, colour=variable)) + 
    geom_point() + 
    geom_line(aes(size=variable)) + 
    theme_bw() + 
    scale_x_continuous(breaks=1:9) + 
    scale_size_manual(values=c(1.2,0.5,0.5)) + 
    scale_colour_manual(values=c("black",hcl(c(15,195),100,65))) + 
    labs(x="First Digit", y="Probability", colour="", size="") 

enter image description here

+0

。ありがとうございます:D –

関連する問題