データフレームに欠損値が重複している値を削除する

欠損値を含む重複した行を含むデータフレームがあります。特定の列のデータを保持しながら重複した行を削除したい（例：下の例ではAge）。ある列の値は他の列よりもモデルの重みが大きいので、その列のデータを保持したいと思います。私はRemoving duplicate Values in Dataframe in Rで提案された方法を試みましたが、私のデータフレームは大きく、欠損値は複数の列に広がっています。どんな提案も感謝します。データフレームに欠損値が重複している値を削除する

**Name, age, city, edu, phone** 
ali, 23, bali, matric, NA 
brad, 24, sofia, inter, NA 
ali, NA, bali, matric, 786 
brad, NA, sofia, inter, 555 
ali, 9999999, bali, matric, 444

期待される出力は次のようになります。

**Name, age, city, edu, phone** 
ali, 23, bali, matric, NA 
brad, 24, sofia, inter, NA

よろしく、dplyrを使用して

DF with duplicated Missing values

出典

2016-12-18 AMR

'dput'してくださいあなたのデータを次のようにbaseを使用。予想される出力は何ですか？ – Christoph

あなたの質問に予想される出力を加えてください。また、これを試して解決するために使用したコードをいくつか表示できますか？ – Dartmouth

単に 'order'して' duplicated'エントリを単に削除してください – Sotos

、magrittr。ただし、ageパラメータのしきい値を設定する必要があります。これは、一意の行セットを保証するものではありません。age

THRESHOLD <- 100 
df %<>% na.omit() %>% filter(age<THRESHOLD)

または

THRESHOLD <- 100 
df <- df[complete.cases(df),] 
df <- df[df$age < THRESHOLD,]

出典

2016-12-18 18:42:19 mabdrabo

データフレームに欠損値が重複している値を削除する

答えて

関連する問題