"COLORED PENCIL STAEDTLER NORIS CLUB ASSORTED COLORS PKT12"という文字列があるとします。私のコードは次のとおりです。stemDocumentはTermDocumentMatrixで動作しますが、tmとRを使用するtm_mapでは機能しません
> a1 <- VCorpus(VectorSource("COLORED PENCIL STAEDTLER NORIS CLUB ASSORTED COLORS PKT12"))
> a3 <- TermDocumentMatrix(a1,control = list(stemming=T))
行列である:
Docs
Terms 1
assort 1
club 1
color 2
nori 1
pencil 1
pkt12 1
staedtler 1
だから我々はstemDocumentが着色し、色になってどちらも色の作品を見ることができます。しかし、私がしなければ:
> a1 <- VCorpus(VectorSource("COLORED PENCIL STAEDTLER NORIS CLUB ASSORTED COLORS PKT12"))
> a2 <- a1 %>% tm_map(PlainTextDocument) %>% tm_map(stemDocument,"english")
> a2[[1]]$content
[1] "COLORED PENCIL STAEDTLER NORIS CLUB ASSORTED COLORS PKT12"
> a2 <- a2 %>% TermDocumentMatrix()
行列は次のとおりです。
Docs
Terms character(0)
assorted 1
club 1
colored 1
colors 1
noris 1
pencil 1
pkt12 1
staedtler 1
我々はstemDocumentが、ここでは動作しません見ることができます。私は、上記のマトリックスには表示されていない "文字(0)"がここにあることに気付きます。しかし、なぜか分からないのですか?
私の状況では、stopWords、stemDocumentなどのテキストデータの前処理を行う必要があります。次に、この処理されたテキストをcsvファイルに保存する必要があります。ここでは、TermDocumentMatrixを直接使用して行列を生成することはできません。誰も私を助けてくれますか?どうもありがとう。
ありがとうございます。これは機能します。しかし、何か変だ。 txt < - tolower(txt)のように見えます。それなしでは動作しません。さらに、私はtxt < - toupper(txt)を試しましたが、どちらもうまくいきませんでした。理由を理解できない –