countvectorizer

0熱

2答えて

Python Sklearnは、素朴なベイズ学習のためのカウント機能以上のものを使用しています。

まずは、私はPythonとnlp/machine learningの初心者です。今、これは実際にはかなりうまく動作 vectorizer = CountVectorizer( input="content", decode_error="ignore", strip_accents=None, stop_words = stopwords.words('eng

0熱

1答えて

Scalar countvectorizerの出力をlibsvm形式に変換する

こんにちは私はスケーラcountvectorizer出力からのマッピングをお勧めしますか：（[label、（nVocab、[i1、i2、...]、[c1、c2、...]）]] ）をlibsvm形式に変換します：（label、：：...）？文字列として入力すると、フィールドを取得するために分割する場所がわからないため、まずは入力します。また、これにスカラーユーティリティがありますか？ありがとう

1熱

1答えて

CountVectorizerに「1：1」を含める

「1：1」というフレーズを含むテキストがある場合。それをトークンとして認識させるには、どうすればCountVectorizerを取得しますか？ text = ["first ques # 1:1 on stackoverflow", "please help"] vec = CountVectorizer() vec.fit_transform(text) vec.get_feature_

0熱

1答えて

Sklearn「str」はオブジェクトが属性を持っていない

を「読み取り」私は、私は次のコードを使用し、大きなCSVファイルの私のデータをベクトル化するSklearnを使用したい：まずTRY： from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(input='file', stop_words = 'english', ngr

0熱

1答えて

Scikit learn CountVectorizerの使い方は？

私はそれらがドキュメントに存在するかどうかをチェックする必要がある単語のセットを持っています。 WordList = [w1, w2, ..., wn] 別のセットには、これらの単語が存在するかどうかを確認する必要があるドキュメントのリストがあります。用語 - 文書行列の特徴は唯一WordListから単語や各行になるようにscikit-学ぶCountVectorizerを使用する方法は、与え

2熱

1答えて

Pyspark - 複数のスパースベクトルの合計（CountVectorizer出力）

特定のキーワードがあるため、フラグが立てられた〜30kのユニークなドキュメントを持つデータセットがあります。データセットの主要フィールドには、文書のタイトル、ファイルサイズ、キーワード、抜粋（キーワードを中心に50語）などがあります。これらの〜30k個のユニークなドキュメントのそれぞれに複数のキーワードがあり、各ドキュメントはキーワードごとに1セットのデータセットを持ちます（したがって、各ドキュメ

1熱

1答えて

パンダデータフレームの効率的な読み取りと書き込み

私は100k行の複数の小さなピースに分割してディスクに保存したいので、データを読み込んで1つずつ処理することができます。私はdillとhdfのストレージを使用しようとしました.csvと生のテキストは時間がかかるようです。私はこれを〜500k行と5列の混合データのデータのサブセットで試しています。 2つは文字列、1つの整数、1つの浮動小数点数を含み、最後はsklearn.feature_extra

0熱

1答えて

CountVectorizerはストップワードを追加した後にfit_transformでエラーをスローします

私は2つのコードセクションを持っています。 1つは動作し、1つは動作しません。エラーなしで期待どおりに、次のコードが実行される（注：postrain、negtrain、postest、及びnegtestは前に定義した文字列のリストである） from sklearn.feature_extraction.text import CountVectorizer vector = CountVec

0熱

2答えて

scickit-learnのCountVectorizerにstop_wordsを追加する

This questionには、組み込みの英語のストップワードにCountVectorizerという単語を追加する方法が説明されています。私は、トークンとしての数字を取り除くという分類器への影響を見ることに興味があります。 ENGLISH_STOP_WORDSはフリーズセットとして保存されていますので、凍ったリストに任意の番号represnetationを追加することができますか？あなたが渡さな

1熱

1答えて

CountVectorizer fit-transform（）がカスタムtoken_patternで機能しない

'R'、 'C'などのプログラミング言語の名前を含むテキストでCountVectorizerを使用する必要があります。しかし、CountVectorizerは1つの文字だけを含む「単語」を破棄します。 cv1 = CountVectorizer(min_df=2, stop_words='english') tokenize = cv1.build_tokenizer()