quantegaにポーランド語のストップワードを実装する準備ができていないので、自分のリストを使用したいと思います。私はスペースで区切られたリストとしてテキストファイルに入れています。必要に応じて、新しい行で区切られたリストを用意することもできます。Quanteda:単語の自分のリストを削除するには
私のコーパスからストップワードのカスタムリストを削除するにはどうすればよいですか? ステミング後にどうすればいいですか?
私はまた、構文の単語のようなベクターを使用することを試みた、様々なフォーマットを作成
stopwordsPL <- as.character(readtext("polish.stopwords.txt",encoding = "UTF-8"))
stopwordsPL <- read.txt("polish.stopwords.txt",encoding = "UTF-8",stringsAsFactors = F))
stopwordsPL <- dictionary(stopwordsPL)
ような文字列ベクトルに変換しようとしている
myStemMat <-
dfm(
mycorpus,
remove = as.vector(stopwordsPL),
stem = FALSE,
remove_punct = TRUE,
ngrams=c(1,3)
)
dfm_trim(myStemMat, sparsity = stopwordsPL)
又は
myStemMat <- dfm_remove(myStemMat,features = as.data.frame(stopwordsPL))
何も動作しません。ストップワードはコーパスと分析に表示されます。カスタムストップワードを適用するための適切な方法/構文は何でしょうか?それは一つとしてファイル全体を読み込んでいるためREADTEXTを使用して解決策が機能していません
stopwordsPL <- readLines("polish.stopwords.txt", encoding = "UTF-8")
dfm(mycorpus,
remove = stopwordsPL,
stem = FALSE,
remove_punct = TRUE,
ngrams=c(1,3))
:あなたのpolish.stopwords.txt
を想定し
例データを入力してください。 – jdb
確か:ここにすべてがあります。 https://www.dropbox.com/s/vqasd32m8kmkfi5/text_data.zip?dl=0これは5つのテキストとポーランド語のストップワードを含むファイルです。残りの部分は単純なDMを許可している場合に構文をテストするだけです。 –