2017-08-15 4 views
0

Rの非常に新しくコーディングし、長いリストの文章とその重み付けについて頻度分析を試みます。私は入れ子にしてデータを変更しましたが、ストップワードを削除しようとすると、各センテンス内の単語のソート順がランダム化されます。後でバイグラムを作成する必要があり、オリジナルのフレーズに基づいていれば好きです。不十分な場合R - anti_joinを使用してストップワード(ngramsを作成する)を削除する際の並べ替えを修正します。

ここに関連するコードがあります、より多くを提供することができます。

library(dplyr) 
library(tidytext) 

data = data%>% 
    anti_join(stop_words)%>% 
    filter(!is.na(word)) 

は、私はそれぞれの文の中に、元のソート順序を保持するために何ができますか?私は文章中のすべての言葉を索引付けして、与えられた重みに合わせることができます。並べ替え順序を混乱させない停止単語を削除するより良い方法はありますか?

はここに同様の質問を見たが、それは未解決です:

How to stop anti_join from reversing sort order in R?。また、これを試みたが、うまくいきませんでした:dplyr How to sort groups within sorted groups?

ガットのヘルプを同僚からこれを書くには残念ながら、彼らはどのようもうできませんよ洞察力が役立ちます。ありがとう!あなたは

library(dplyr) 
library(tidytext) 

data = data %>% 
    dplyr::mutate(idx = 1:n()) %>% 
    dplyr::anti_join(stop_words) %>% 
    dplyr::filter(!is.na(word)) %>% 
    dplyr::arrange(idx) 

をソートする前にデータをソート・インデックスを追加することができ

答えて

0

dplyr::が必要ではありませんが、機能はどこから来るのか覚えておくことができます)

+0

はこれを試みたが、私のインデックスがためのものですその中の各単語ではなく、フレーズ自体全体であるので、文自体は依然としてスクランブルされる。私は元のフレーズのためにバイグラムを作りたいと思っています。例えば、 "Make America"、 "America Great"、 "Great Again"を返すのではなく、 "Make America Great Again"のトランプのツイートを取ると、 ":( – shwarmashubs

+0

あなたのデータがどのように見えるかの例を投稿することができますか?ベストは再現可能な例であり、私たちはそれを再生することができます。 –

関連する問題