text-mining

    0

    1答えて

    Rのテキストデータを使用してロジスティック回帰を実行しようとしています。用語文書行列とそれに対応する潜在的意味空間を構築しました。私の理解では、LSAは次元削減に役立つ「用語」から「概念」を導出する際に使用されます。ここに私のコードがあります: tdm = TermDocumentMatrix(corpus, control = list(tokenize=myngramtoken,weighti

    0

    1答えて

    を変換するには、私が使用してバイグラムのリストを作成しました: BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = Bigram

    3

    2答えて

    Iは2次の表があるとします 表1: id word 1 apple 1 banana 2 cherry 2 donuts 3 eggplant 3 fish 表2(key_words): key_words apple orange cherry peach I table1の 'word'列の各要素がtable2に存在するかどうかを確認し、次のような結果が

    0

    1答えて

    Twitterのデータを使用してテキストマイニングの練習をしています。オリジナルのデータフレームには1280行があります。避けるために:LDAで エラー(dtm_cea、K = 8): 各行入力行列のは、私が疎に排除少なくとも一つの非ゼロエントリ を含有する必要がありますエントリーなしで任意の行をマトリックス: rowTotals <- apply(dtm , 1, sum) dtm.new <

    0

    1答えて

    オープンエンドの質問から回答を分析したい。最初に1つの単語の雲、そして私は2-3単語のフレーズの頻度を数えたいときに問題を満たした。 library('tm') tokenize_ngrams <- function(x,n=2)return(rownames(as.data.frame(unclass(textcnt(x,method="string",n=n))))) corpus <-

    0

    2答えて

    私はランダムファイルのセンチメント分析をしようとしています。ただし、スローされたエラーは次のとおりです。 could not find function "classify_emotion" パッケージ「センチメント」は使用できませんでした(Rバージョン3.1.2)。しかし、インストールされたものはinstall_github('sentiment140', 'okugami79')です。 エ

    0

    1答えて

    テキストマイニングに基づいて予測モデルを作成しようとしています。私は自分のモデルにいくつの機能を設定すべきか混乱しています。私は分析の中で1000の文書を持っています(したがってコーパスは約700になります)。コーパス内の用語の数は約2 000であるので、文書の数を超える(P >> N)。非常に多くの機能を持っていることには意味がありますか? HashingTFメソッドの機能の数は、コーパス内の用

    0

    2答えて

    私は、どのトピックが有名人の話を理解しようとしていました。私はtwitter API接続を確立し、検証されたハンドルからいくつかの人物のつぶやきを得ました。 私は以下のことでつぶやきを処理し - 空白 AmitText=str_replace_all(tweets.df$text,"[^[:graph:]]", " ") でグラフィック文字を置き換えは、ケースに 削除句読点、ハイパーリンク、タブ、

    0

    1答えて

    私は別のウェブサイトからのニュース記事を取得するために多くのクモを構築し、私はオーディオクリップにテキストを変換するためのAPIがありますが、私のような記事がテキスト絞り込むこと枠組みやPythonのツールが必要です。 削除をソースに関連するもの。任意の日付形式を削除します。 URLを削除しています。最高経営責任者(CEO)などの頭字語を主任執行役員 に変更します。特殊文字やタイプミスを削除します

    3

    1答えて

    quantegaにポーランド語のストップワードを実装する準備ができていないので、自分のリストを使用したいと思います。私はスペースで区切られたリストとしてテキストファイルに入れています。必要に応じて、新しい行で区切られたリストを用意することもできます。 私のコーパスからストップワードのカスタムリストを削除するにはどうすればよいですか? ステミング後にどうすればいいですか? 私はまた、構文の単語のよう