2016-12-27 11 views
0

私はつぶやきの感情を分析するためのRスクリプトを書いています。私はtwitteRとROAuthパッケージを使用して、いくつかの検索キーワードに基づいてつぶやきを取得しています。これを達成するために、以下のコードを使用しています。Twitterのスラングルックアップを参照してください

library(twitteR) 
library(ROAuth) 
library(httr) 

# Set API Keys 
api_key <- "xxxxxx" 
api_secret <- "yyyyyy" 
acs_token <- "aaxxbbbb" 
access_token_secret <- "xyyzziiassss" 
setup_twitter_oauth(api_key, api_secret, acs_token, access_token_secret) 
# Grab latest tweets 
tweets_results <- searchTwitter('xfinity x1 netflix', n=1500) 

# Loop over tweets and extract text  
feed_results = lapply(tweets_results, function(t) t$getText()) 

今、私はつぶやきを整理するために次の関数を使用しています。

clean_text = function(x) 
{ 
x = gsub("rt", "", x) # remove Retweet 
x = gsub("@\\w+", "", x) # remove at(@) 
x = gsub("[[:punct:]]", "", x) # remove punctuation 
x = gsub("[[:digit:]]", "", x) # remove numbers/Digits 
x = gsub("http\\w+", "", x) # remove links http 
x = gsub("[ |\t]{2,}", "", x) # remove tabs 
x = gsub("^ ", "", x) # remove blank spaces at the beginning 
x = gsub(" $", "", x) # remove blank spaces at the end 
try.error = function(z) #To convert the text in lowercase 
{ 
y = NA 
try_error = tryCatch(tolower(z), error=function(e) e) 
if (!inherits(try_error, "error")) 
y = tolower(z) 
return(y) 
} 
x = sapply(x, try.error) 
return(x) 

は今、このクリーンアップが行われた後(「マブラヴ」、「BFF」、「BAE」などのような)特定のTwitterの俗語があります。効果的な感情分析を行うためには、これらのスラング語を標準的な英語の単語に変換する必要があります。私はRでこれを達成するのに役立つ辞書を見つけることを望んでいましたが、それを見つけられませんでした。誰も私にこの問題を回避する最善の方法を示唆することができない場合は、そのような辞書について知っていますか?あなたは、データをダウンロードし、辞書または参照として使用することができます

  1. Acronyms
  2. Jargons
  3. More Slang

- ここ

+2

http://www.netlingo.com/acronyms.php – hrbrmstr

+1

コードはパッケージをロードしていますが、実際には使用していません。 –

+0

@KonradRudolphこれをキャッチするためにありがとう。以前は使っていましたが、削除するのを忘れました。 – Venu

答えて

2

は、いくつかの有用な資源です。ストップワードを削除し、ステミングを行うことを忘れないでください。

関連する問題