countvectorizer

    0

    2答えて

    まずは、私はPythonとnlp/machine learningの初心者です。今、これは実際にはかなりうまく動作 vectorizer = CountVectorizer( input="content", decode_error="ignore", strip_accents=None, stop_words = stopwords.words('eng

    0

    1答えて

    こんにちは私はスケーラcountvectorizer出力からのマッピングをお勧めしますか:([label、(nVocab、[i1、i2、...]、[c1、c2、...])]] )をlibsvm形式に変換します:(label、::...)? 文字列として入力すると、フィールドを取得するために分割する場所がわからないため、まずは入力します。 また、これにスカラーユーティリティがありますか? ありがとう

    1

    1答えて

    「1:1」というフレーズを含むテキストがある場合。それをトークンとして認識させるには、どうすればCountVectorizerを取得しますか? text = ["first ques # 1:1 on stackoverflow", "please help"] vec = CountVectorizer() vec.fit_transform(text) vec.get_feature_

    0

    1答えて

    を「読み取り」私は、私は次のコードを使用し、大きなCSVファイルの私のデータをベクトル化するSklearnを使用したい: まずTRY: from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(input='file', stop_words = 'english', ngr

    0

    1答えて

    私はそれらがドキュメントに存在するかどうかをチェックする必要がある単語のセットを持っています。 WordList = [w1, w2, ..., wn] 別のセットには、これらの単語が存在するかどうかを確認する必要があるドキュメントのリストがあります。用語 - 文書行列の特徴は唯一WordListから単語や各行になるようにscikit-学ぶCountVectorizerを使用する方法 は、与え

    2

    1答えて

    特定のキーワードがあるため、フラグが立てられた〜30kのユニークなドキュメントを持つデータセットがあります。データセットの主要フィールドには、文書のタイトル、ファイルサイズ、キーワード、抜粋(キーワードを中心に50語)などがあります。これらの〜30k個のユニークなドキュメントのそれぞれに複数のキーワードがあり、各ドキュメントはキーワードごとに1セットのデータセットを持ちます(したがって、各ドキュメ

    1

    1答えて

    私は100k行の複数の小さなピースに分割してディスクに保存したいので、データを読み込んで1つずつ処理することができます。私はdillとhdfのストレージを使用しようとしました.csvと生のテキストは時間がかかるようです。 私はこれを〜500k行と5列の混合データのデータのサブセットで試しています。 2つは文字列、1つの整数、1つの浮動小数点数を含み、最後はsklearn.feature_extra

    0

    1答えて

    私は2つのコードセクションを持っています。 1つは動作し、1つは動作しません。 エラーなしで期待どおりに、次のコードが実行される(注:postrain、negtrain、postest、及びnegtestは前に定義した文字列のリストである) from sklearn.feature_extraction.text import CountVectorizer vector = CountVec

    0

    2答えて

    This questionには、組み込みの英語のストップワードにCountVectorizerという単語を追加する方法が説明されています。私は、トークンとしての数字を取り除くという分類器への影響を見ることに興味があります。 ENGLISH_STOP_WORDSはフリーズセットとして保存されていますので、凍ったリストに任意の番号represnetationを追加することができますか? あなたが渡さな

    1

    1答えて

    'R'、 'C​​'などのプログラミング言語の名前を含むテキストでCountVectorizerを使用する必要があります。しかし、CountVectorizerは1つの文字だけを含む「単語」を破棄します。 cv1 = CountVectorizer(min_df=2, stop_words='english') tokenize = cv1.build_tokenizer()