"NA"文字列の引用符を解析する

私のデータフレームには、欠損値を含む変数が"NA"のような文字列として含まれています。これらを含むデータフレーム内のすべての列を解析し、is.na()などの機能によってキャッチされた実際のNAsに変換する最も効率的な方法は何ですか？"NA"文字列の引用符を解析する

私はsqldfを使用してデータベースに問い合わせています。

再現例：

vect1 <- c("NA", "NA", "BANANA", "HELLO") 
vect2 <- c("NA", 1, 5, "NA") 
vect3 <- c(NA, NA, "NA", "NA") 


df = data.frame(vect1,vect2,vect3)

出典

2016-01-02 jgozal

データを読み取っているときは、これらを処理するのが最善の方法です。標準ツールで読み込んでいる場合は、 'na.strings'引数を見てください。それ以外の場合は[こちら]（http://stackoverflow.com/questions/9351089/replacing-missing-values-coded-by-in-an-r-dataframe）が役立ちますが、期間をNA – user20650

と置き換えてくださいツール？私はデータを読むときにこれらを扱うことが難しいかもしれないSQLデータベースからすべてのデータを読んでいます – jgozal

大丈夫、あなたは特に何を使用していますか？かなり確かに彼らはna.strings引数を持っています – user20650

が選択肢に追加するには、あなたはまた、典型的なblah[index] <- NAアプローチの代わりにreplaceを使用することができます。考慮すべきもう一つの選択肢はtype.convertある

df <- replace(df, df == "NA", NA)

：replaceは次のようになります。これは、列の型を自動的に変換するためにデータを読み込むときにRが使用する関数です。したがって、結果は、現在の方法とは異なります。たとえば、2番目の列が数値に変換されるなどです。

df[] <- lapply(df, function(x) type.convert(as.character(x), na.strings = "NA")) 
df

ここでの性能比較です。サンプルデータは@ rolandの答えです。ここで

はテストに機能している：

funop <- function() { 
    df[df == "NA"] <- NA 
    df 
} 

funr <- function() { 
    ind <- which(vapply(df, function(x) class(x) %in% c("character", "factor"), FUN.VALUE = TRUE)) 
    as.data.table(df)[, names(df)[ind] := lapply(.SD, function(x) { 
    is.na(x) <- x == "NA" 
    x 
    }), .SDcols = ind][] 
} 

funam1 <- function() replace(df, df == "NA", NA) 

funam2 <- function() { 
    df[] <- lapply(df, function(x) type.convert(as.character(x), na.strings = "NA")) 
    df 
}

は、ここでのベンチマークです：

library(microbenchmark) 
microbenchmark(funop(), funr(), funam1(), funam2(), times = 10) 
# Unit: seconds 
#  expr  min  lq  mean median  uq  max neval 
# funop() 3.629832 3.750853 3.909333 3.855636 4.098086 4.248287 10 
# funr() 3.074825 3.212499 3.320430 3.279268 3.332304 3.685837 10 
# funam1() 3.714561 3.899456 4.238785 4.065496 4.280626 5.512706 10 
# funam2() 1.391315 1.455366 1.623267 1.566486 1.606694 2.253258 10

replaceはjgozalさん@と同じであるローランドのアプローチ、@と同じになります。ただし、type.convertのアプローチでは、異なる列の種類が発生します。

all.equal(funop(), setDF(funr())) 
all.equal(funop(), funam()) 

str(funop()) 
# 'data.frame': 10000000 obs. of 3 variables: 
# $ vect1: Factor w/ 3 levels "BANANA","HELLO",..: 2 2 NA 2 1 1 1 NA 1 1 ... 
# $ vect2: Factor w/ 3 levels "1","5","NA": NA 2 1 NA 1 NA NA 1 NA 2 ... 
# $ vect3: Factor w/ 1 level "NA": NA NA NA NA NA NA NA NA NA NA ... 

str(funam2()) 
# 'data.frame': 10000000 obs. of 3 variables: 
# $ vect1: Factor w/ 2 levels "BANANA","HELLO": 2 2 NA 2 1 1 1 NA 1 1 ... 
# $ vect2: int NA 5 1 NA 1 NA NA 1 NA 5 ... 
# $ vect3: logi NA NA NA NA NA NA ...

出典

2016-01-02 16:11:54 A5C1D2H2I1M1N2O1R2T1

私はthis質問からそれをやって、この素敵な方法を見つけた：

したがって、この特定の状況のために、それだけで次のようになります。

df[df=="NA"]<-NA

これだけかかりました5百万行と約250変数で約30秒

出典

2016-01-02 14:55:38 jgozal

これは、たとえばdata.tableパッケージを使用して、これをはるかに迅速に行うことができます。しかし、あなたは 'df'の再現可能な例を提供していないので、答えを構成してテスト/ベンチマークすることができません。 – Roland

再現可能な例が追加されました – jgozal

これはわずかに速い：

set.seed(42) 
df <- do.call(data.frame, lapply(df, sample, size = 1e7, replace = TRUE)) 
df2 <- df 
system.time(df[df=="NA"]<-NA) 
# user  system  elapsed 
#3.601  0.378  3.984 

library(data.table) 
setDT(df2) 
system.time({ 
    #find character and factor columns 
    ind <- which(vapply(df2, function(x) class(x) %in% c("character", "factor"), FUN.VALUE = TRUE)) 
    #assign by reference 
    df2[, names(df2)[ind] := lapply(.SD, function(x) { 
    is.na(x) <- x == "NA" 
    x 
}), .SDcols = ind] 
}) 
# user  system  elapsed 
#2.484  0.190  2.676 
all.equal(df, setDF(df2)) 
#[1] TRUE

出典

2016-01-02 15:31:06 Roland

"NA"文字列の引用符を解析する

答えて

関連する問題