text-classification

1熱

1答えて

私はStanford NLPを使用しましたが、より厳格なライセンス条項（GPLとして記載されていますが、非営利プロジェクトのみに使用できる）のため、Apache Open NLPを評価しています。私は基本的なサンプルテストを試して、品詞がOpen NLPで間違ってタグ付けされていることがわかりました。例：「load」、「loading」のような言葉は、実際には動詞のようにNNとしてマークされて

3熱

2答えて

シーケンスのバイナリ分類のためのRNN

誰かがリカレントニューラルネットワーク（RNN）を実装するための良いライブラリやリファレンス（チュートリアルや記事）を提案できるかどうか疑問に思っています。アレックス・グレイヴスさんがrnnlibを使用しようとしましたが、ネットワークを自分のニーズに合わせるためにアーキテクチャを変更する際にいくつかの問題がありました。特に、正と負のサンプルを使用して、通常の言語の文字列を認識しようとしています

1熱

1答えて

単純なバイナリテキスト分類

私は、定義された概念空間（ここではlearning as it relates to work）に関連して、800k +学術論文を関連性（1）または無関係性（0）として分類する最も効果的かつ簡単な方法を模索します。データである：タイトル&アブストラクト及び/又は封入のためのいくつかのしきい値を生じさせる機能を確立することによって、教師付き機械学習を含む、任意の手法を用い、あるいは組み合わせてもよ

1熱

2答えて

nltkを使ってテキスト文書を分類する

私は電子メールを使ってメッセージ本文を取り除き、スポーツ、政治、技術などのラベルを使って分類したいというプロジェクトに取り組んでいます。 .. メール本文からメッセージ本文を削除しました。これで分類が始まります。私は感情分析のクラシックな例を、move_reviewsコーパスを使用してドキュメントを肯定的および否定的レビューに分離して使用しました。私はこのアプローチを自分のプロジェクトにどのよう

1熱

1答えて

doc2vec表現を使ったscikit-learn分類

doc2vec表現とscikit-learnモデルを使ってテキスト文書を分類したいと思っています。私の問題は、どうやって始めればいいのですか？誰かがscikit-learnでdoc2vecを使用するために通常取られる一般的な手順を説明できますか？

0熱

1答えて

多項式Naive BayesでSGDを使用できますか？

できるかどうか、そしてSGDを使用してMNBモデルをトレーニングすることが有効な方法であるかどうかを理解したいと思います。私のアプリケーションはテキスト分類です。 sklearn私は利用可能なMNBがないことを知りました。デフォルトではSVMですが、NBは線形モデルですね。だから、（ラプラススムージングと）私の尤度パラメータはのように推定することができる場合私はSGDと私のパラメータを更新

0熱

1答えて

ビルディングwekaクラシファイア

私はWekaでクラシファイアを構築しようとしています。トレーニングとテストという2つのデータセットがあります。 2つのファイルは同じ番号と種類の属性で同じです。しかし、weka探検家は私にTrainとTest setが互換性がないと言っているエラーを与えています。このエラーを解決するには？ここでは、二組のスナップです：そのウィキ内を検索training set testing set

0熱

1答えて

HTTPポストオブジェクトを最も安価に分類する方法

SciPyを使用してマシン上のテキストを分類できますが、HTTP POST要求から文字列オブジェクトをリアルタイムで、またはほぼリアルタイムで分類する必要があります。私の目標が並行性が高く、リアルタイム出力が近く、メモリのフットプリントが小さい場合は、どのアルゴリズムを調べるべきですか？私は、Goでサポートベクターマシン（SVM）の実装を手に入れることができたと考えましたが、それは私のユースケース

0熱

1答えて

SVMを使用してテキスト分類にカイ二乗値を使用するにはどうすればよいですか？

私は、テキスト分類の問題について肯定と否定の両方の訓練文書を持っています。私は、各文書のすべてのフィーチャのカイ二乗値を計算する予定です。その価値を持っているので、私はSVMを使った分類にどのように進むことができますか？分類の閾値はいくらですか？

1熱

1答えて

スタンフォードNLPテキストクラシファイア、カスタムフィーチャ、コンフュージョンマトリックス

JavaコードからStanford NLP Text Classifier（ColumnDataClassifier）を使用しています。私は2つの主な質問があります。 1-）混乱行列などの詳細な評価情報を印刷する方法を教えてください。 2）私のコードはすでに、前処理を行い、バイナリフィーチャやTF-IDF値などの用語の数値フィーチャ（ベクトル）を抽出します。これらの機能を使用して、分類子をトレーニ