0
私は、テキストData_clean $ Reviewからnグラム(ここでは1グラムと2グラム)を抽出するためにQuanteda Rパッケージを使用しますが、Rを使ってChi-squareをコンパイルする方法を探していますドキュメントと抽出されたngram:nグラムとドキュメントとの間のカイ二乗値を計算します。
ここでは、テキストを整理して(再表示)、nグラムを生成するために行ったRコードです。
どうぞよろしくお願いします。
あなたはこのためngrams
を使用するのではなく、textstat_collocations()
呼び出される関数ではないでしょうあなたに
#delete rows with empty value columns
Data_clean <- Data[Data$Note!="" & Data$Review!="",]
Data_clean$id <- seq.int(nrow(Data_clean))
train.index <- 1:50000
test.index <- 50001:nrow(Data_clean)
#clean up
# remove grammar/punctuation
Data_clean$Review.clean <- tolower(gsub('[[:punct:]0-9]', ' ', Data_clean$Review))
train <- Data_clean[train.index, ]
test <- Data_clean[test.index, ]
temp.tf <- Data_clean$Raison.Reco.clean %>% tokens(ngrams = 1:2) %>% # generate tokens
dfm # generate dfm
はどうもありがとうございましたが、私はあなたが提案するこの方法で考えて、それがdfmを作成するのは簡単ではないでしょう。ここで、フィーチャーは連鎖のリストであり、文書は 'Data_Clean $ review'です。 –
これは簡単なことです...私はこれで今作業中です。 –
ありがとうございました:) –