2016-11-26 14 views
0

私は、Twitterデータ(1ファイルのみ)を含むtxtファイルを持っています。 streamRとparseTweets関数を使ってRにロードしました。このデータをKmeansクラスタリングする必要があります。まず、私はデータを整理して準備する必要がありますが、データは数字の混在です。
このデータから不要な文字をすべて削除するにはどうすればよいですか?私はプレーンテキストだけが必要です。数字、特殊文字などなしKmeansクラスタリングとテキストマイニングR

*library(streamR) 
install.packages("RCurl") 
install.packages("bitops") 
install.packages("rjson") 
library(bitops) 
library(RCurl) 
library(rjson) 
library(NLP) 
library(tm) 
library(SnowballC) 
library(XML) 
tweets.df<-parseTweets('tweetsStream.txt', simplify = FALSE); 
tweets.df<-tm_map(tweets.df,content_transformer(tolower)); 
Error in UseMethod("tm_map", x) : 
    no applicable method for 'tm_map' applied to an object of class "data.frame"* 

答えて

1

tm_map関数は、入力データ型としてコーパスを再取得します。これを試してみてください:

docs <- Corpus(DirSource(cname)) 
docs <- tm_map(docs, tolower) 

は、ここに完全な例を探す:https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html

詳しくは常にあなたのRコンソールで全体のドキュメントを取得するために

??tm_mapまたは??tmを実行することができます。

よろしくお願いします。 Markus

関連する問題