text-mining

    10

    2答えて

    見やすいかもしれません。しかし、私は混乱しています。 テキストマイニングと情報抽出の違いは何ですか?

    15

    1答えて

    にTMパッケージを使用して、複数のコーパスのトップN頻度の高い用語のデータフレームを作ります最終的のような出力テーブルで終わる:定義により corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... [10th most frequent word] 、findFreqTerms(corpus1,N)戻っN回以上出現する用語のすべ

    7

    4答えて

    私はPubMed IDと一緒にPubMedエントリのリストを持っています。私は入力としてPubMed ID番号を受け入れ、PubMedのWebサイトから要約を取得するPythonスクリプトを作成するか、Pythonを使用したいと思います。 これまでのところ、私はNCBI EutilitiesとimporturlライブラリをPythonで見たことがありますが、どのようにしてテンプレートを書くべきか分

    5

    2答えて

    テキストベースのトレーニングデータとテストデータがあるとします。具体的には、トレーニングとテストという2つのデータセットがあり、どちらもテキストを含む1つの列を持ち、手元にある仕事のために興味があります。 Rでtmパッケージを使用して、トレーニングデータセットのテキスト列を処理しました。空白、句読点、およびストップワードを削除した後、私はコーパスを抹消し、最終的に各文書の単語の頻度/カウントを含む

    5

    1答えて

    MalletのGUIを見た人はいますか? おかげ

    17

    2答えて

    感情分析のためにつぶやきを並べ替えるために、絵文字を処理/取り除くにはどうすればよいですか? 行き方:sort.listで エラー(Y): 無効な入力 おかげ をして、これは顔文字は、Twitterからとrに探して出てくる方法です: \xed��\xed�\u0083\xed��\xed�� \xed��\xed�\u008d\xed��\xed�\u0089

    6

    2答えて

    readChar()関数を使用して、Rにテキストを読み込みました。私は、テキストの文章が、文字 "b"の出現として "a"の出現を多く持っているという仮説をテストすることを目指しています。私は最近、{stringr}パッケージを発見しました。これは、文字の数とテキスト全体の各文字の合計数のカウントなど、私のテキストで有用なことをするのに大いに役立ちました。さて、文章全体の文章数を知る必要があります

    5

    3答えて

    tmパッケージを使用して、用語ドキュメントマトリックス内の特定の単語に関連する単語を探しようとしています。 私はこのためにfindAssocsを使用しています。 findAssocsの引数は: x:用語 - ドキュメントマトリックスです。 用語:用語を保持する文字。 corlimit:相関の低い結合限界の数値です。 私は一貫して私の結果 例としてnumeric(0)を取得しています: findAs

    9

    2答えて

    tm -packageでRでテキストマイニングを行っています。すべてが非常にスムーズに動作します。しかし、ステミング後に1つの問題が発生します(http://en.wikipedia.org/wiki/Stemming)。明らかに、同じ幹を持ついくつかの単語がありますが、それらが「一緒に投げ込まれていない」ことは重要です(これらの単語は異なることを意味します)。 例については、以下の4つのテキスト

    9

    2答えて

    Rのtmパッケージを使用して、各行がフィードバックの異なるインスタンスであるという顧客からのフィードバックのCSVファイルを取得しようとしています。このフィードバックのすべてのコンテンツをコーパスにインポートしたいが、DocTerms Matrixのフィードバックを比較できるように、各行をコーパス内の別のドキュメントにしたい。私のデータセットには10​​,000以上の行があります。 もともと私は次