text-mining

-1熱

1答えて

ニュース記事と見出しに基づいて無料でコーパスがありますか？私は関連するデータのコーパスが必要なテキストマイニングと分析を行うことができる分野を探しています。どこから自由にダウンロードできますか？

0熱

1答えて

テキストマイニング用のKNNアルゴリズムを使用してモデルを作成するためのRコードのエラー

35000行以上のテキストマイニングを実行しようとしていますが、モデルデータからモデルを作成しようとすると、トレーニングとテストに使用します。また、私はトレーニングデータの既知のカテゴリをモデルにフィードします。このエラーが発生しています。 KNNでエラー（modeldata [電車、]、modeldata [テスト、]、CL [電車]）：KNN であまりにも多くの絆それを修正する方法任意の

0熱

1答えて

トークン化とdtMatrixとPythonでnltk

私はcsvファイルを2つの列 - 文とラベルがあります。私は、これらの文章のための文書用語行列を作りたいと思います。私はPythonで新しいですし、これまでのところ、私はこれを達することができる： import nltk import csv import numpy from nltk import sent_tokenize, word_tokenize, pos_tag reade

0熱

1答えて

Python：テキスト会話で[nグラムで]単語のリストを見つける最速の方法

単語リストのすべての単語が会話で見つかった回数を探しています。各単語の個々の頻度を考慮するのではなく、合計数だけを考慮する。単語リストは、この手順は非常に重い処理し、大規模なデータセットの場合に実行するのに長い時間がかかるしているuptill 3 from nltk.util import ngrams find = ['car', 'motor cycle', 'heavy traffic v

0熱

1答えて

nグラムとドキュメントとの間のカイ二乗値を計算します。

私は、テキストData_clean $ Reviewからnグラム（ここでは1グラムと2グラム）を抽出するためにQuanteda Rパッケージを使用しますが、Rを使ってChi-squareをコンパイルする方法を探していますドキュメントと抽出されたngram：ここでは、テキストを整理して（再表示）、nグラムを生成するために行ったRコードです。どうぞよろしくお願いします。あなたはこのためngram

1熱

3答えて

Rのデータフレーム内のすべての列名に特定の文字列を追加する最も良い方法は何ですか？

私は、文書用語行列からデータフレームに変換されたデータを訓練しようとしています。肯定と否定のコメントは別々のフィールドがありますので、異なるフィールドから来る同じ単語を区別するために、「タグ」として機能するように列名に文字列を追加する必要がありました。たとえば、helloという単語は正と負のコメントフィールド（したがって、私のデータフレームの列として表される）で、私のモデルでは、列名をpositi

0熱

1答えて

機能の選択とテキストマイニングにおけるドキュメントの類似性の評価

私はJavaのWEKAライブラリによるテキストマイニングプロジェクトに取り組んでいます。前処理ステップでは、StringToWordVectorフィルタを適用しました。このフィルタでは、トークン化、ストップワード除去、ステミング、TF-IDF重み付け方式などのいくつかのオプションを設定しました。質問があります： 1すべてのテキストマイニングプロジェクトで機能選択プロセスを行う必要がありますか？

5熱

2答えて

Rを使用してPDFテーブルを認識

私はいくつかのpdfレポートの中のテーブルからデータを抽出しようとしています。 pdftoolsと同様のパッケージを使っていくつかの例を見てきましたが、私はテキストの取得に成功しましたが、テーブルを抽出したいだけです。テーブルを認識して抽出するためにRを使用する方法はありますか？

0熱

1答えて

MedlineオブジェクトからRISmedを使用して複数の著者アフィリエイトを取得

Medlineからのデータ（抽象/作成者/所属など）の自動取得にRISmed-Rパッケージを使用する際、Affiliation（）メソッドを使用して複数の所属を取得することはできません。複数のものが利用可能であっても、最初の著者の所属のみが検索されます。 https://www.nlm.nih.gov/bsd/mms/medlineelements.html#ad から、2014年12月以降、複数

0熱

1答えて

N-グラムの分析は、Pythonでここ

は私のサンプルデータは、次のようになります。今度は、以下のコードを使用してインプレッションを集計する方法を理解しました。私はこれらのクエリに関連した平均的な印象を表示するために別の列を必要とする。ここ：よう def n_grams(txt): grams = list() words = txt.split(' ') for i in range(len(words)): for