text-mining

0熱

1答えて

Rのテキストデータを使用してロジスティック回帰を実行しようとしています。用語文書行列とそれに対応する潜在的意味空間を構築しました。私の理解では、LSAは次元削減に役立つ「用語」から「概念」を導出する際に使用されます。ここに私のコードがあります： tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighti

0熱

1答えて

Rのテキストマイニング用語ドキュメントマトリックス

を変換するには、私が使用してバイグラムのリストを作成しました： BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = Bigram

3熱

2答えて

チェック

Iは2次の表があるとします表1： id word 1 apple 1 banana 2 cherry 2 donuts 3 eggplant 3 fish 表2（key_words）： key_words apple orange cherry peach I table1の 'word'列の各要素がtable2に存在するかどうかを確認し、次のような結果が

0熱

1答えて

LDAトピックモデルの問題

Twitterのデータを使用してテキストマイニングの練習をしています。オリジナルのデータフレームには1280行があります。避けるために：LDAでエラー（dtm_cea、K = 8）：各行入力行列のは、私が疎に排除少なくとも一つの非ゼロエントリを含有する必要がありますエントリーなしで任意の行をマトリックス： rowTotals <- apply(dtm , 1, sum) dtm.new <

0熱

1答えて

オープンエンドの質問のnワードの頻度を確認する

オープンエンドの質問から回答を分析したい。最初に1つの単語の雲、そして私は2-3単語のフレーズの頻度を数えたいときに問題を満たした。 library('tm') tokenize_ngrams <- function(x,n=2)return(rownames(as.data.frame(unclass(textcnt(x,method="string",n=n))))) corpus <-

0熱

2答えて

エラー：関数 "classify_emotion"を見つけることができませんでした

私はランダムファイルのセンチメント分析をしようとしています。ただし、スローされたエラーは次のとおりです。 could not find function "classify_emotion" パッケージ「センチメント」は使用できませんでした（Rバージョン3.1.2）。しかし、インストールされたものはinstall_github('sentiment140', 'okugami79')です。エ

0熱

1答えて

テキストマイニングの機能の数

テキストマイニングに基づいて予測モデルを作成しようとしています。私は自分のモデルにいくつの機能を設定すべきか混乱しています。私は分析の中で1000の文書を持っています（したがってコーパスは約700になります）。コーパス内の用語の数は約2 000であるので、文書の数を超える（P >> N）。非常に多くの機能を持っていることには意味がありますか？ HashingTFメソッドの機能の数は、コーパス内の用

0熱

2答えて

有名人のつぶやきを使用して作成した自分のワードクラウドに「fffd」が表示されます

私は、どのトピックが有名人の話を理解しようとしていました。私はtwitter API接続を確立し、検証されたハンドルからいくつかの人物のつぶやきを得ました。私は以下のことでつぶやきを処理し - 空白 AmitText=str_replace_all(tweets.df$text,"[^[:graph:]]", " ") でグラフィック文字を置き換えは、ケースに削除句読点、ハイパーリンク、タブ、

0熱

1答えて

テキストデータを細分化する方法は？

私は別のウェブサイトからのニュース記事を取得するために多くのクモを構築し、私はオーディオクリップにテキストを変換するためのAPIがありますが、私のような記事がテキスト絞り込むこと枠組みやPythonのツールが必要です。削除をソースに関連するもの。任意の日付形式を削除します。 URLを削除しています。最高経営責任者（CEO）などの頭字語を主任執行役員に変更します。特殊文字やタイプミスを削除します

3熱

1答えて

Quanteda：単語の自分のリストを削除するには

quantegaにポーランド語のストップワードを実装する準備ができていないので、自分のリストを使用したいと思います。私はスペースで区切られたリストとしてテキストファイルに入れています。必要に応じて、新しい行で区切られたリストを用意することもできます。私のコーパスからストップワードのカスタムリストを削除するにはどうすればよいですか？ステミング後にどうすればいいですか？私はまた、構文の単語のよう