で話題の分析と表示されます:奇妙な言葉は、私は、段落持っているR
は恐ろしいだった時に、我々はユーザー写真でにしてください宿泊しているん嫌な皮肉私が投稿したのを、それらの目撃写真の中のすべてのものは拳私たちを与えた各私たちは部屋に私たちを移動された私たちはそこに全体で服で寝ていたより良い一度は靴を脱いで一度もカーペットシャワーなどの穴に寝具カーテンソファの椅子の椅子の上に歩くことはありませんランプコードで動作しない何も私たちはそれを修正するために私たちは浴室の照明テレビトイレ以外の照明は絶えずシャワー排水を差し込んだ。
私は段落を掃除してから少し文法的に奇妙なようです。そして私は仕事の頻度を抽出するために次のコードを使用します。 freq[ord]
がある
# create corpus
docs<-Corpus(VectorSource(example))
# stem document
docs<-tm_map(docs,stemDocument)
# create document-term matrix
dtm<-DocumentTermMatrix(docs)
# convert row names
rownames(dtm)<-"example"
# collapse matrix by summing over columns
freq<-colSums(as.matrix(dtm))
# length should be total number of terms
length(freq)
# create sort order (descending)
ord<-order(freq,decreasing=TRUE)
# list all terms in decreasing order of freq and write to disk
freq[ord]
その後:
単語ani
がここにありますなぜ私が疑問に思って、どうやら、ani
は私の段落に表示されません。ありがとう。
次のコードではany
をani
に転送していますが、それを回避する方法は誰か知っていますか?
docs<-tm_map(docs,stemDocument)
ありがとうございました。文書を抹消する他の合理的な方法はありますか?それは私が止める必要があるようです。 –
@ AegeanT.Wuもちろん、 'gsub'や' grep'を使っていつでも手動で行えます。あるいは、基本的な 'wordStem'ファイルを設定し、それを調整することもできます。ポーターとポッター2を切り替えて、それが変わるかどうかを調べることもできると思います。 OTOHあなたは何が起こっているかを理解している限り、それほど問題にならないはずですから、今のままにしておくことができます。 –
@ AegeanT.Wu私はほとんど忘れてしまった、 'RWeka'をステミングに使うこともできます –