2016-12-18 3 views
0

欠損値を含む重複した行を含むデータフレームがあります。特定の列のデータを保持しながら重複した行を削除したい(例:下の例ではAge)。ある列の値は他の列よりもモデルの重みが大きいので、その列のデータを保持したいと思います。私はRemoving duplicate Values in Dataframe in Rで提案された方法を試みましたが、私のデータフレームは大きく、欠損値は複数の列に広がっています。どんな提案も感謝します。データフレームに欠損値が重複している値を削除する

**Name, age, city, edu, phone** 
ali, 23, bali, matric, NA 
brad, 24, sofia, inter, NA 
ali, NA, bali, matric, 786 
brad, NA, sofia, inter, 555 
ali, 9999999, bali, matric, 444 

期待される出力は次のようになります。

**Name, age, city, edu, phone** 
ali, 23, bali, matric, NA 
brad, 24, sofia, inter, NA 

よろしく、dplyrを使用して

DF with duplicated Missing values

+0

'dput'してくださいあなたのデータを次のようにbaseを使用。予想される出力は何ですか? – Christoph

+0

あなたの質問に予想される出力を加えてください。また、これを試して解決するために使用したコードをいくつか表示できますか? – Dartmouth

+0

単に 'order'して' duplicated'エントリを単に削除してください – Sotos

答えて

0

magrittr。ただし、ageパラメータのしきい値を設定する必要があります。これは、一意の行セットを保証するものではありません。age

THRESHOLD <- 100 
df %<>% na.omit() %>% filter(age<THRESHOLD) 

または

THRESHOLD <- 100 
df <- df[complete.cases(df),] 
df <- df[df$age < THRESHOLD,] 
関連する問題