R：ネストされたifelseステートメントと複数のパターンを改善する

私はいくつかの動物の避難訓練データでいくつかのデータクリーニングの練習を続けています。ここでの目標は、品種カテゴリの数を減らすことです。R：ネストされたifelseステートメントと複数のパターンを改善する

部分パターンマッチoutgoing$Single.Breedデータフレームの列とそれぞれの品種カテゴリを使用しています。だから、品種がChihuahuaになる場合もありますが、Long Hair Chihuahuaでもかまいません。（したがって、私の使用はgreplです。）したがって、品種カテゴリを含むものは、そのカテゴリによって異なる列に表されます。さらに、私はまた、コードを追加する必要があります。 ...コードの作成がさらに複雑になります。

以下のコードは、「解決策」ですが、非常に厄介です。これを達成するためのより良い、より滑らかな、より効率的な方法がありますか？

BreedCategories <- ifelse(outgoing$New.Type == "Dog", 
      ifelse(grepl("Chihuahua",outgoing$Single.Breed, ignore.case = TRUE), "Chihuahua", 
      ifelse(grepl("Pit Bull",outgoing$Single.Breed, ignore.case = TRUE), "Pit Bull", 
      ifelse(grepl("Terrier",outgoing$Single.Breed, ignore.case = TRUE), "Terrier", 
      ifelse(grepl("Shepherd",outgoing$Single.Breed, ignore.case = TRUE), "Shepherd", 
      ifelse(grepl("Poodle",outgoing$Single.Breed, ignore.case = TRUE), "Poodle", 
      ifelse(grepl("Labrador|Retriever",outgoing$Single.Breed, ignore.case = TRUE),"Labrador", 
      "Other")))))),"Cat")

出典

2016-08-30 kimbekaw

あなたの質問が[再現可能]（http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example）になるのに十分なデータを含める必要がありますが、チェックアウトしてください'dplyr :: case_when'。 – alistaire

品種名がリストされているかどうかを確認しようとしているなら、 'ifelse'は必要ありません。再現可能な例とあなたの望む出力は理想的でしょう – Nate

正規表現と何品種が

map <- data.frame(
    pattern=c(
     "Chihuahua", "Pit Bull", "Terrier", "Shepherd", 
     "Poodle", "Labrador|Retriever", "Other"), 
    isa=c(
     "Chihuahua", "Pit Bull", "Terrier", "Shepherd", 
     "Poodle", "Labrador", "Other"), 
    stringsAsFactors=FALSE)

であり、プログラムのためのいくつかのデータ

outgoing <- data.frame(Single.Breed=c(map$isa, "Pit Bull Poodle", "Pug"), 
         stringsAsFactors=FALSE)

間のマップdata.frameを作成し、一致するvapply()とgrepl()を使用各パターンをデータに適用する。 grepl()の使用は、結果は、各行を訪問し、存在する場合「その他」であることを起こる最高の（最後の）一致する（取得するために、各エントリに対応する行

isa <- vapply(map$pattern, grepl, logical(nrow(outgoing)), outgoing$Single.Breed) 
if (any(rowSums(isa) > 1)) 
    warning("ambiguous breeds: ", outgoing$Single.Breed[rowSums(isa) != 1])

使用max.col()と、マトリックスであることを意味しますマッチなし）。

outgoing$BreedCategory <- map$isa[max.col(isa, "last")]

は、ここで私はそれがより明確に「プログラム」（grepl()とmax.col()）から「データ」（正規表現と入力品種）を分離するのでアプローチが魅力的だと思い結果

> isa <- vapply(map$pattern, grepl, logical(nrow(outgoing)), outgoing$Single.Breed) 
> if (any(rowSums(isa) > 1)) 
+  warning("ambiguous breeds: ", outgoing$Single.Breed[rowSums(isa) != 1]) 
Warning message: 
ambiguous breeds: Pit Bull Poodle 
> outgoing$BreedCategory <- map$isa[max.col(isa, "last")] 
> outgoing 
    Single.Breed BreedCategory 
1  Chihuahua  Chihuahua 
2  Pit Bull  Pit Bull 
3   Terrier  Terrier 
4  Shepherd  Shepherd 
5   Poodle  Poodle 
6  Labrador  Labrador 
7   Other   Other 
8 Pit Bull Poodle  Poodle 
9    Pug   Other

です。

「その他」の扱いが少し壊れやすいように見えますが、それがmapの最後の要素であることを忘れてしまったらどうなりますか？一つの可能性は、効率的で非常にスペースない（マトリックスがNX位に自分の長さNのデータを変換ISAの行の合計をテストインジケータ変数を作成し、そして上記

test = rowSums(isa) 
outgoing$BreedCategory[test == 0] = "Other" 
outgoing$BreedCategory[test == 1] = map$isa[max.col(isa)][test == 1] 
outgoing$BreedCategory[test > 1] = "Mixed"

条件付き品種を割り当てるために、これを使用して正規表現マトリックスの）しかし、1Mの入力行を言う仕事をする可能性が高いようです。

dplyr::case_when()は、多くの場合、エラーが発生しやすいgrepl()文を書く必要があるようです。

出典

2016-08-30 01:42:28

私はこれが好きです。' map $ isa [max。col（isa、 "first"）] '' apply'ステートメントを避けます。 – thelatemail

@thelatemailありがとう！私は 'max.col（）'について知らないことを認めます（ 'max.row（）'が存在しないということは奇妙です）。 –

ありがとうございます！これは非常に役に立ち、仕事を終えました！これは間違いなく、将来の使用のために私のRツールボックスに追加する別の巧妙な戦略になるでしょう！私は、「その他」はかなり壊れやすいことに同意します。インジケータ変数は、スペースの非効率性を無視して、それを解決する良い方法です。幸運なことに、私のデータセットは大規模ではないので、必要に応じてその変数は確実にオプションになります。 – kimbekaw

R：ネストされたifelseステートメントと複数のパターンを改善する

答えて

関連する問題