、インナーはtidytext
パッケージからのデータフレーム「parts_of_speech
」を使用してデータを結合し、同じtidytextからのデータフレームを使用して、ストップワードを削除し、英語以外の単語を削除するにはパッケージ。
library(dplyr) # loads inner_join, anti_join
# load unnest_tokens(); parts_of_speech stop_words data frames:
library(tidytext)
data(package="tidytext") # show built-in data frames
# optional, show richness of parts_of_speech dataset
all_english_words <- parts_of_speech$word # , > 200000 rows
grep("apple", all_english_words, value=TRUE)
# assume data-frame df containing your data was already created,
# contains column `text_column`, all lowercase
new_df <- df %>%
unnest_tokens(word, text_column) %>%
inner_join(word, parts_of_speech, by = "word") %>%
anti_join(stop_words, by = "word")
glimpse(new_df)
微妙な微妙な調整が必要な場合があります。
出典
2017-09-25 08:41:32
knb
'tm'がそうです。再現可能な例を追加すると、手助けが楽になります – Sotos
英語以外の単語を削除するのはかなり簡単です。大量の辞書(茶色やロイターのようなもの)をダウンロードし、それらをデータフレームに変換し、 '!(df1 $ word%in%dictionary $ word)'サブセット...再現可能な例を与えることは、あなたのデータのために... – Gaurav
こんにちはGaurav、私のワードクラウドは降順で頻度を示しています:jqxwb、gghtf、neelam、jhwqex、lkjbne、taslima、刺繍、同意、datatime ...私に関連する言葉は、同意する。残りの部分を取り除きたい...この例が問題をよりよく理解するのに役立ちますように! – eclairs