これは私がしばらくの間取り組んできた問題のフォローアップの質問です。私には2つの質問があります。 1つは2つのつぶやきに作用するアルゴリズムを考慮し、10つのつぶやきを測定するように改訂しました。私は私の改訂版が何を測定しているのか疑問に思います。私は結果を得るが、ただ一つの価値を返すだけでなく、いくつかのツイートのジャカードの距離を測定したい。それは1つの価値を返すので、私はすべてを追加するだけだと思います。もう1つの質問は、For Loopを作成してクラスタを割り当てる試みです。KmeansのつぶやきとクラスタのJaccard距離を見つける
私はつぶやきのデータセットの間にJaccard距離を見つけようとしています。そして、それらのつぶやきをKmeansアルゴリズムでクラスタリングしようとしています。私はこれまでのところ、この
install.packages("rjson")
library("rjson")
#download JSON File and put into a dataframe
download.file("http://www3.nd.edu/~dwang5/courses/spring15/assignments/A2/Tweets.json", tf<-tempfile());library(jsonlite);json_alldata <- fromJSON(sprintf("[%s]", paste(readLines(file(tf)),collapse=",")))
# get rid of geo column
tweet.features = json_alldata
tweet.features$geo <- NULL
# *Works. Compares two tweets and measures Jaccard Distance
tweetText <- list(tweet1 = tweet.features$text[1]:tweet.features$text[2])
jaccard_i <- function(tw1, tw2){
tw1 <- unlist(strsplit(tw1, " |\\."))
tw2 <- unlist(strsplit(tw2, " |\\."))
i <- length(intersect(tw1, tw2))
u <- length(union(tw1, tw2))
list(i=i, u=u, j=i/u)
}
jaccard_i(tweetText[[1]], tweetText[[2]])
ことのすべてが指定された2人のつぶやきのジャカード距離を測定されている何 http://www3.nd.edu/~dwang5/courses/spring15/assignments/A2/Tweets.json
:私はからデータを取得していますどこ
です。それは素晴らしいです。
しかし今、私はいくつかのつぶやきの間の距離を比較するために修正しようとしています。今度はRのサンプルコマンドから取得したランダムな10個のつぶやき
# Generates two sets of 5 random tweets
tweetText <- list(sample(tweet.features$text, replace = FALSE, size = 5), sample(tweet.features$text, replace = FALSE, size = 5))
jaccard_i <- function(tw1, tw2){
tw1 <- unlist(strsplit(tw1, " |\\."))
tw2 <- unlist(strsplit(tw2, " |\\."))
i <- length(intersect(tw1, tw2))
u <- length(union(tw1, tw2))
list(i=i, u=u, j=i/u)
}
jaccard_i(tweetText[[1]], tweetText[[2]])
これは私には結果が出るが、正しいとは言えない。
私はすべてのつぶやきを測定し、jaccardの距離を比較し、次にJacmeの距離に基づいてKmeansに基づいてクラスタリングするアルゴリズムを構築しようとしています。
別の試みのために、私はFor Loopを作成すると考えました。
私は今、私はループのために、私は私が
#Algorithm attempt
for(i in tweet.features$text){
for (j in c){
i <- length(intersect(i, j))
u <- length(union(i, j))
j = i/u
}
#assign(my.array)
}
配列およびクラスタに割り当てることができます考え出しツイートを測定することを期待してなかった10件のランダムツイート
c <- sample(tweet.features$text, replace = FALSE, size = 10)
で10のクラスタ中心を作ることにしました
これは役に立つとは思えませんが、Jaccard距離を測定するループを作成しようとしています。
ご迷惑をおかけして申し訳ありません。私は少し失われているので、どんな助けも高く評価されます。
'stringdist'または' vegan'パッケージを見てください。 – phiver