2016-06-13 10 views
1

で話題の分析と表示されます:奇妙な言葉は、私は、段落持っているR

は恐ろしいだった時に、我々はユーザー写真でにしてください宿泊しているん

嫌な皮肉私が投稿したのを、それらの目撃写真の中のすべてのものは拳私たちを与えた各私たちは部屋に私たちを移動された私たちはそこに全体で服で寝ていたより良い一度は靴を脱いで一度もカーペットシャワーなどの穴に寝具カーテンソファの椅子の椅子の上に歩くことはありませんランプコードで動作しない何も私たちはそれを修正するために私たちは浴室の照明テレビトイレ以外の照明は絶えずシャワー排水を差し込んだ。

私は段落を掃除してから少し文法的に奇妙なようです。そして私は仕事の頻度を抽出するために次のコードを使用します。 freq[ord]がある

# create corpus 
docs<-Corpus(VectorSource(example)) 

# stem document 
docs<-tm_map(docs,stemDocument) 

# create document-term matrix 
dtm<-DocumentTermMatrix(docs) 

# convert row names 
rownames(dtm)<-"example" 

# collapse matrix by summing over columns 
freq<-colSums(as.matrix(dtm)) 

# length should be total number of terms 
length(freq) 

# create sort order (descending) 
ord<-order(freq,decreasing=TRUE) 

# list all terms in decreasing order of freq and write to disk 
freq[ord] 

その後:

freq[ord]

単語aniがここにありますなぜ私が疑問に思って、どうやら、aniは私の段落に表示されません。ありがとう。

次のコードではanyaniに転送していますが、それを回避する方法は誰か知っていますか?

docs<-tm_map(docs,stemDocument) 

答えて

2

茎がついた後は「任意の」という言葉です。 Dr. Martin PorterのステミングアルゴリズムとSnowballによって生成されたC libstemmerライブラリを使用する、基礎となる関数のwordStem(この場合は欠陥のある)ロジックはyiに変更しました。

+0

ありがとうございました。文書を抹消する他の合理的な方法はありますか?それは私が止める必要があるようです。 –

+0

@ AegeanT.Wuもちろん、 'gsub'や' grep'を使っていつでも手動で行えます。あるいは、基本的な 'wordStem'ファイルを設定し、それを調整することもできます。ポーターとポッター2を切り替えて、それが変わるかどうかを調べることもできると思います。 OTOHあなたは何が起こっているかを理解している限り、それほど問題にならないはずですから、今のままにしておくことができます。 –

+0

@ AegeanT.Wu私はほとんど忘れてしまった、 'RWeka'をステミングに使うこともできます –

関連する問題