2017-12-26 7 views
1

選択した単語のみを集計してコーパスをDocumentTermMatrixに変換したい。Dictionaryを持つDocumentTermMatrix

 Terms 
    Docs peter petter 
     1  0  0 
     2  2  2 
  1. :私がしたいことは、このようになります。一方で

     Terms 
        Docs peter petter 
         1  0  0 
         2  1  1 
    

     a = list("I am a big big big apple", "Petter Petter Peter Peter") 
        v = VCorpus(VectorSource(a)) 
        my_terms = c("peter", "petter") 
        DocumentTermMatrix(v, control = list(dictionary = my_terms)) %>% as.matrix() 
    

    それは私にこれを与える:私は、制御リストの "辞書" のパラメータがこれを行う知っています空ではあるものの、最初の文書はそこに残る必要があります。 (これはメタデータと一致する必要があるため)

  2. 単語の頻度を出力に表示する必要があります。

これは機能/パラメータがあるかどうか疑問に思っていました。

+1

は( 'tm'パッケージをインストールし、ロードした後)、(あなたが欲しいものを)私の第二の結果を提供します。これをもう一度確認してください。 – KoenV

+0

ここにバージョンの問題はありますか?それは間違いなく私のために働かないので... – user7453767

答えて

0

それは正常に動作します:あなたのコードを実行

library(magrittr) 
library(tm) 

a <- list("I am a big big big apple", "Petter Petter Peter Peter") 
v <- VCorpus(VectorSource(a)) 
my_terms <- c("peter", "petter") 
DocumentTermMatrix(v, control = list(dictionary = my_terms)) %>% 
     as.matrix()