text-mining

10熱

2答えて

見やすいかもしれません。しかし、私は混乱しています。テキストマイニングと情報抽出の違いは何ですか？

15熱

1答えて

私はへの文書の各セットの10件の最も頻度の高い用語を検索したいR.</p> <p>に<code>tm</code>パッケージで作成したいくつかの<code>TermDocumentMatrix</code>秒を持っているR

にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる：定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

7熱

4答えて

Pythonを使用してPubMedからデータを取得する

私はPubMed IDと一緒にPubMedエントリのリストを持っています。私は入力としてPubMed ID番号を受け入れ、PubMedのWebサイトから要約を取得するPythonスクリプトを作成するか、Pythonを使用したいと思います。これまでのところ、私はNCBI EutilitiesとimporturlライブラリをPythonで見たことがありますが、どのようにしてテンプレートを書くべきか分

5熱

2答えて

新しい（テスト）データを使用して同じDocumentTermMatrixを再作成する方法

テキストベースのトレーニングデータとテストデータがあるとします。具体的には、トレーニングとテストという2つのデータセットがあり、どちらもテキストを含む1つの列を持ち、手元にある仕事のために興味があります。 Rでtmパッケージを使用して、トレーニングデータセットのテキスト列を処理しました。空白、句読点、およびストップワードを削除した後、私はコーパスを抹消し、最終的に各文書の単語の頻度/カウントを含む

5熱

1答えて

マレットにはGUIがありますか？

MalletのGUIを見た人はいますか？おかげ

17熱

2答えて

Twitterでの絵文字rの感情分析

感情分析のためにつぶやきを並べ替えるために、絵文字を処理/取り除くにはどうすればよいですか？行き方：sort.listでエラー（Y）：無効な入力おかげをして、これは顔文字は、Twitterからとrに探して出てくる方法です： \xed��\xed�\u0083\xed��\xed�� \xed��\xed�\u008d\xed��\xed�\u0089

6熱

2答えて

Rのテキスト中の文の数を数えるには？

readChar()関数を使用して、Rにテキストを読み込みました。私は、テキストの文章が、文字 "b"の出現として "a"の出現を多く持っているという仮説をテストすることを目指しています。私は最近、{stringr}パッケージを発見しました。これは、文字の数とテキスト全体の各文字の合計数のカウントなど、私のテキストで有用なことをするのに大いに役立ちました。さて、文章全体の文章数を知る必要があります

5熱

3答えて

パッケージtmのfindAssocsに問題がある

tmパッケージを使用して、用語ドキュメントマトリックス内の特定の単語に関連する単語を探しようとしています。私はこのためにfindAssocsを使用しています。 findAssocsの引数は： x：用語 - ドキュメントマトリックスです。用語：用語を保持する文字。 corlimit：相関の低い結合限界の数値です。私は一貫して私の結果例としてnumeric(0)を取得しています： findAs

9熱

2答えて

tm-packageによるテキストマイニング - 単語のステミング

tm -packageでRでテキストマイニングを行っています。すべてが非常にスムーズに動作します。しかし、ステミング後に1つの問題が発生します（http://en.wikipedia.org/wiki/Stemming）。明らかに、同じ幹を持ついくつかの単語がありますが、それらが「一緒に投げ込まれていない」ことは重要です（これらの単語は異なることを意味します）。例については、以下の4つのテキスト

9熱

2答えて

CSVファイルのRテキストマイニング文書（1文書あたり1行）

Rのtmパッケージを使用して、各行がフィードバックの異なるインスタンスであるという顧客からのフィードバックのCSVファイルを取得しようとしています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいが、DocTerms Matrixのフィードバックを比較できるように、各行をコーパス内の別のドキュメントにしたい。私のデータセットには10,000以上の行があります。もともと私は次