text-mining

    -1

    1答えて

    ニュース記事と見出しに基づいて無料でコーパスがありますか? 私は関連するデータのコーパスが必要なテキストマイニングと分析を行うことができる分野を探しています。 どこから自由にダウンロードできますか?

    0

    1答えて

    35000行以上のテキストマイニングを実行しようとしていますが、モデルデータからモデルを作成しようとすると、トレーニングとテストに使用します。また、私はトレーニングデータの既知のカテゴリをモデルにフィードします。 このエラーが発生しています。 KNNで エラー(modeldata [電車、]、modeldata [テスト、]、CL [電車]):KNN で あまりにも多くの絆それを修正する方法任意の

    0

    1答えて

    私はcsvファイルを2つの列 - 文とラベルがあります。 私は、これらの文章のための文書用語行列を作りたいと思います。私はPythonで新しいですし、これまでのところ、私はこれを達することができる: import nltk import csv import numpy from nltk import sent_tokenize, word_tokenize, pos_tag reade

    0

    1答えて

    単語リストのすべての単語が会話で見つかった回数を探しています。各単語の個々の頻度を考慮するのではなく、合計数だけを考慮する。単語リストは、この手順は非常に重い処理し、大規模なデータセットの場合に実行するのに長い時間がかかるしているuptill 3 from nltk.util import ngrams find = ['car', 'motor cycle', 'heavy traffic v

    0

    1答えて

    私は、テキストData_clean $ Reviewからnグラム(ここでは1グラムと2グラム)を抽出するためにQuanteda Rパッケージを使用しますが、Rを使ってChi-squareをコンパイルする方法を探していますドキュメントと抽出されたngram: ここでは、テキストを整理して(再表示)、nグラムを生成するために行ったRコードです。 どうぞよろしくお願いします。 あなたはこのためngram

    1

    3答えて

    私は、文書用語行列からデータフレームに変換されたデータを訓練しようとしています。肯定と否定のコメントは別々のフィールドがありますので、異なるフィールドから来る同じ単語を区別するために、「タグ」として機能するように列名に文字列を追加する必要がありました。たとえば、helloという単語は正と負のコメントフィールド(したがって、私のデータフレームの列として表される)で、私のモデルでは、列名をpositi

    0

    1答えて

    私はJavaのWEKAライブラリによるテキストマイニングプロジェクトに取り組んでいます。前処理ステップでは、StringToWordVectorフィルタを適用しました。このフィルタでは、トークン化、ストップワード除去、ステミング、TF-IDF重み付け方式などのいくつかのオプションを設定しました。 質問があります: 1すべてのテキストマイニングプロジェクトで機能選択プロセスを行う必要がありますか?

    5

    2答えて

    私はいくつかのpdfレポートの中のテーブルからデータを抽出しようとしています。 pdftoolsと同様のパッケージを使っていくつかの例を見てきましたが、私はテキストの取得に成功しましたが、テーブルを抽出したいだけです。 テーブルを認識して抽出するためにRを使用する方法はありますか?

    0

    1答えて

    Medlineからのデータ(抽象/作成者/所属など)の自動取得にRISmed-Rパッケージを使用する際、Affiliation()メソッドを使用して複数の所属を取得することはできません。複数のものが利用可能であっても、最初の著者の所属のみが検索されます。 https://www.nlm.nih.gov/bsd/mms/medlineelements.html#ad から、2014年12月以降、複数

    0

    1答えて

    は私のサンプルデータは、次のようになります。今度は、以下のコードを使用してインプレッションを集計する方法を理解しました。私はこれらのクエリに関連した平均的な印象を表示するために別の列を必要とする。ここ :よう def n_grams(txt): grams = list() words = txt.split(' ') for i in range(len(words)): for