text-mining

2熱

1答えて

私は単語のネットワークを計算するためにRにwidyrをインストールできません。選択肢はありますか？

私はwidyr関数を使用して、単語が一緒に出現する回数を数え、レビューのテキストマイニングにおける単語間の相関関係を調べたいと考えています。 widyrパッケージをインストールするとき、Rは "package 'widyr'が利用できない（Rバージョン3.4.0の場合）という警告メッセージを表示し続けます。 Rのバージョンを変更するといくつかのパッケージが無効になるか、または私にwidyrをインス

1熱

1答えて

gensimのget_document_topicsメソッドによって返される確率は1つに加算されません

時にはすべてのトピックの確率を返しますが、すべて正常ですが、時には少数のトピックの確率を返します。それは文書によって異なります。一般的に、トピック数が少ない場合、確率は80％以上になるため、最も関連性の高いトピックだけが返されますか？すべての確率を返すように強制する方法はありますか？多分私は何かが不足しているかもしれませんが、メソッドのパラメータのドキュメントを見つけることができません。

0熱

2答えて

ML/NLPを使用して電子メールで参照されている人物を特定します。

NLPプロジェクトに取り組んでいます。私は感謝に関する電子メールのリストを持っています。私は電子メールの内容から、誰が評価されているかを判断しようとしています。これにより、私たちの業績評価プログラムの組織が助けになります。私は誰が評価されているかを特定するだけでなく、自分が行った仕事の種類を特定し、それを得ようとしています。私は電子メールの分類のためにオープンNLP（最大エントロピー/ロジスティ

0熱

1答えて

PCA座標からヒートマップを作成するR

ヒートマップを1つの変数に作成したいと考えています。しかし、私は行列形式で持っていません。私は各項目のPCA1とPCA2の座標を持っており、これからヒートマップを作成する方法を知りたいと思います。これは私のデータは、（クラスタがクラスタ分類を、意味のkです） ID PCA1 PCA2 cluster echocardiography -0.88 0.87 9 in

0熱

1答えて

RapidMinerのテキストディメンションを減らす方法

Rapid Minerを使用してテキストマイニングのフィーチャディメンションを削減することに挑戦しています。この時点で私は単語トークンでテキストを処理しており、モデリングや予測には理想的ではない非常に大きな次元の集合になっています。他の方法を使用してデータを消去し、関連する語句のみを使用するプロセスを改善するにはどうすればよいですか？私はtfidfを適用しようとしましたが、ターゲット変数を削除

-1熱

1答えて

テキストデータを使用した正規のクラスの決定

私はユニークな問題があり、私の助けとなるアルゴリズムは認識していません。多分、ここの誰かがします。私は、さまざまなソース（チーム）から集められたデータセットを持っています。特に、1つのフィールドは「タイプ」と呼ばれます。 APLE、りんご、APPLS、ornge、果物、オレンジ、オレンジZ、梨、カリフラワー、colifower、brocli、brocoli、ネギ、野菜、野菜：ここではいくつかの

0熱

1答えて

私は最初の単語が同じレコードに「メイン」という単語と単語の残りの部分であるcsvファイルから同義語を読みたい同義語

のための2の複数のリストのリストは、その同義語です今私は基本的にこれは私に、本質的にリスト0である synonyms [[1]] [[1]]$word [1] "ss" [[1]]$syns [1] "yy" "yyss" [[2]] [[2]]$word [1] "ser" [[2]]$syns [1] "sert" "sertyy" "serty" としてリ

1熱

1答えて

GEOqueryを使用したGEOからのデータテーブルヘッダーの取得

GEOでの調査のために、データテーブルのヘッダーの説明、具体的には調査中のすべてのサンプルの「VALUE」列を取得したいと思います。 go hereの場合は、スクロールしてサンプルの1つをクリックします。「GSM2644971」を選択します。次にスクロールダウンすると、「データテーブルヘッダーの説明」が表示され、「VALUE正規化（標準化方法を指定した場合）平均ベータ」と表示されます。その情報は私

0熱

2答えて

ファイルから英語以外の単語を削除するにはどうすればよいですか？

2つのテキストとカテゴリの列を含むファイルを処理しようとしています。テキストの列から、英語以外の単語を削除する必要があります。私はPythonを初めて使っているので、これを行う方法に関する提案があれば感謝します。私のファイルには60,000行のインスタンスがあります。そして、私は下のこのポイントを得ることができますが、このコードは、トリックを行う必要があり、前方

1熱

1答えて

ワード埋め込み、ルックアップテーブル、ワード埋め込みビジュアリゼーション

ワード埋め込みに関する質問はほとんどありません。 1.単語のワンホットベクトル、例えば[0 0 0 1 0]を埋め込みベクトルE = [0.2、0.4、0.2、0.2]に変換すると、各インデックス結果の単語ベクトル？たとえば、E [1]は0.2 ... ....具体的にE [1]が定義するものですが（私は基本的に別の空間への変換を知っていますが）....または単語ベクトルは集合的に文脈を定義します