私は、どのトピックが有名人の話を理解しようとしていました。私はtwitter API接続を確立し、検証されたハンドルからいくつかの人物のつぶやきを得ました。有名人のつぶやきを使用して作成した自分のワードクラウドに「fffd」が表示されます
私は以下のことでつぶやきを処理し -
- 空白
AmitText=str_replace_all(tweets.df$text,"[^[:graph:]]", " ")
- でグラフィック文字を置き換えは、ケースに
- 削除句読点、ハイパーリンク、タブ、キーワード "RT" とblankspacesを下げるために、すべての文字を変換さつぶやきの最初と最後に
- コーパスが作成され、ストップワードが削除され、ワードクラウドが作成されました
AmitText.corpus <- Corpus(VectorSource(AmitText))
AmitText.corpus <- tm_map(AmitText.corpus, removeWords, stopwords("en"))
wordcloud(AmitText.corpus,min.freq = 2, scale=c(7,0.5),colors=brewer.pal(8, "Dark2"),random.color= FALSE, random.order = FALSE, max.words = 150)
これはまともなwordcloudを作成しますが、問題がある、私はこれがセレブで一番つぶやい単語であることを示唆し、wordcloudの真ん中に大きな「FFFD」を取得。実際、これは私が7人の有名人すべてに見られるパターンです。これが当てはまらないと確信していましたが、生のつぶやきもチェックして、つぶやきにfffdという単語は見つかりませんでした。私が理解しているところから、これは正しく読み込まれないグラフィックキャラクターです。私は理由とGoogleが多くの助けではないと確信していません
「ab28millionインドsrbachchan多くのお祝いの先生のashokmistry4545の誇り」。 likeのような文字がfffdとして読み込まれていると思いますか? ( "[:alnum:] ///」^ []"、 ""、ツイート$テキスト) 'GSUB - なぜ'つぶやき$テキスト<を使用していないこれらのジャンク値を削除する – Krithi07
。ところで - はい、これはあなたが(tolowerを行うFFFDの原因は)です - 詳細 – Prem
恐ろしいのために、この[リンク](https://en.wikipedia.org/wiki/Specials_(Unicode_block))を参照してください!これはうまくいった。ありがとう:) – Krithi07