txt <- readLines("this.txt")
library(tm)
corpus <- Corpus(VectorSource(txt))
corpus <- tm_map (corpus, removePunctuation)
tdm <- TermDocumentMatrix (corpus)
m <- as.matrix (tdm)
d <- data.frame(freq = sort(rowSums(m),decreasing = TRUE))
答えて
は、私はあなたがtm
ライブラリを使用して「」と「この」のような言葉を削除する方法を求めていると思いますか?
corpus <- tm_map(corpus, removeWords, c("hello","is","it","me","you're","looking","for?"))
編集:特定の単語を削除するには
corpus <- tm_map(txt, removeWords, stopwords("english"))
:もしそうなら、これを試してみてください、私は作品戦争と平和を、使用した例を作成しました。の前に用語を小文字に変換してください。文書用語行列を作成してください。これと同じように:
library(tm)
# load
txt <- readLines("this.txt")
corpus <- Corpus(VectorSource(txt))
# clean
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removeWords, stopwords("english"))
corpus <- tm_map(corpus, PlainTextDocument)
# create dtm and get terms
dtm <- DocumentTermMatrix(corpus)
dtm$dimnames$Terms
変更し、これにすべき類似したテキストファイルと出力に合わせてコード:
dtm$dimnames$Terms
[1] "almost" "anonymous" "anyone" "anywhere" "author" "away"
[7] "aylmer" "book" "chapter" "contents" "copy" "cost"
[13] "date" "david" "ebook" "english" "give" "gutenberg"
[19] "iii" "included" "january" "language" "last" "leo"
[25] "license" "louise" "march" "maude" "may" "one"
[31] "online" "peace" "posting" "project" "restrictions" "reuse"
[37] "start" "terms" "title" "tolstoy" "tolstoytolstoi" "translators"
[43] "updated" "use" "vii" "volunteer" "war" "whatsoever"
[49] "widger" "wwwgutenbergorg"
あなたのデータがどのように見えるかは分かりません。しかし、単純なfind replace関数であるgsubを使うことができます。
あなたは正規表現が何であるかを知っていますすみませんが、Rは悲惨な私の人生を作る: '(:P –
私が持っています行列Dと私は、などのいくつかの単語を削除する必要があります: コーパス
あなた
"Hello"
を与える
gsub("The", "", "HelloThe")
? R関数gsubについてhereを読むことができます。ここ は、それがどのように働くか少し例を示します
> let <- c("A", "B", "A", "C") # My vector of letters
> let
[1] "A" "B" "A" "C"
> # I want delete "A", so this letter I will replace with nothing ("")
> l <- gsub("A", "", let) # "A" replace by "" in vector let
> l
[1] "" "B" "" "C"
あなたが今しなければならないのは、いずれかがある場合は、空の要素を削除します。
そして、あなたが唯一の1つのシンボルラインを持っている場合、その作品GSUB:
> let <- " a b c d g h a a a"
> let
[1] " a b c d g h a a a"
> l <- gsub("a", "", let)
> l
[1] " b c d g h "
tnks ...しかしマトリックスを持っていればどうすればいいですか?私はそれをどうすればいいのですか? –
マトリックス要素間でgsubが動作します。マトリックスをリストに変換する必要はありません。 KiprasやOliverによって書かれた例を使用することです。私はパッケージ 'tm'について少し知っているので、もっと理解するのを助けることはできません。 –
ok thnk y sooooたくさん –
- 1. C#テキストファイル特定の単語を検索し、その単語を含むテキストの全行を削除します
- 2. 文字列から特定の単語を削除する
- 3. XMLルートの下の特定のノードを削除しますか?
- 4. x単語以上の行を削除するには? notepad ++ regex
- 5. Rの特定のエッジを削除するR
- 6. R最後の単語を文字列から削除する
- 7. 文の最初の単語以外のすべてを削除します
- 8. HTML5 Localstorage&jQuery:特定の単語で始まるローカルストレージキーを削除する
- 9. StataまたはRの観測から特定の単語を削除するにはどうすればよいですか?
- 10. 特定の単語
- 11. シェーディング特定の領域 - 私が質問以下た基地R
- 12. 特定の条件を満たす行を削除するR
- 13. フォントiは以下のように単純なインラインリスト有する
- 14. 「this」は以下のjavascriptで何を表していますか?
- 15. を削除します。小数点以下のルビから
- 16. 文字列から特定の文字を削除するR
- 17. 特定の文字列パターンを削除するR
- 18. フィールド内の特定の単語の後に単語を選択します。
- 19. NSMutableArrayのサイズは、特定の単語まで、または特定の単語から?
- 20. 特定のサイズ以下のファイルを削除する最も効率的な方法
- 21. sedを含む行の重複単語を削除します
- 22. Yahoo Answers API - questionSearch - 特定の単語を除外する
- 23. テキストボックスのスペースを削除しますが、単語間のスペースを削除しないでください
- 24. jQuery - html(this); (this)divを削除します
- 25. 文字列から特定の単語を取り除く
- 26. MySQLは特定のポイントまで行を削除します
- 27. NSStringから単語を削除する
- 28. テキストファイルから選択した単語を削除しますか?
- 29. Wordpressのプラグインフォームはすべての単語スペースを削除します
- 30. C++:STL:ベクトル:削除:デストラクタは、コードは以下の通りです
私はすでにこれをやろうとしていますが、うまくいきません...私のような言葉を削除する必要があります:dから、 –
私はあなたが必要としていることを理解していますあなたのデータについてもっと具体的に: 残っている単語は何ですか? あなたのテキストはどの言語ですか? 残りの単語は大文字ですか、小文字ですか? 'The'ではなく' the'のような言葉があれば、それらを小文字に変換することができます。上記の私の編集を参照してください。 –