stemming

    0

    1答えて

    elasticsearch2.3.3とNest 2.3.2を使用して添付ファイルのインデックスを作成しました。インデックスは以下のとおりです。私はドキュメント内に複数形の単数形の単語を探しています。読み込み中の雪玉茎はこの種の変換を行います。しかし、レコードは検索で返されませんでした。そこに追加のプラグイン/単語コレクションが必要になりました。誰も助けることができます。 { "mydocs":{

    0

    1答えて

    を使用して、自然言語の文字列を食い止めるしようとしている: たtext_string = "こんにちはみんなあなたができる場合にはこのメッセージは、parseOutTextを使って正しく読んでください。 " 私はこのコードを実行しています: words =" ".join(text_string.splitの単語のためのstemmer.stem(word) ")) およびI g次のように、いくつか

    1

    1答えて

    マレットモデルのInputDirectoryに個別ファイルとして保存されたコーパスにポーターアルゴリズムを使用してステミングを適用したいと思います。誰かがそれがどのように実行できるかを助けることができますか?

    1

    1答えて

    私はツイートの感情分析をしようとしています。言葉の前処理を行うと、行列を作成している間、私は次のエラーだ:14215件のツイートから Error in if (any(lens > lim)) stop("There is a limit of ", lim, "characters on the number of characters in a word being stemmed") :

    0

    1答えて

    私は単数形/複数形問合せを処理しようとしています。まだここtext_generalタイプスキーマ <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true"> <analyzer type="index"> <tokenizer class

    0

    1答えて

    各ファイルに単語が出現する頻度を上げることに問題があります。 私は3つの等しいファイルにテストし、それぞれ異なる結果を得ました。 例:各ワードファイル「プログラムは、」13回 が、私は持って出力されるが発生します。 *理由語幹のこの「PROGRAMA」とないプログラムなどの検索フィールドに単語機能 [program] ---------------- Doc: site1.html Freq:

    3

    1答えて

    ステミング私はプログラミングPythonの間、以下のような問題点に来た:私は(SnowballStemmerを使用して)茎する必要がある単語を含むパンダのデータフレームを使用しています。私は、ステムテキストと非ステムテキストの結果を調べるために言葉を茎にしたいと思います。このために、私は分類子を使用します。私はステマのために次のコードを使用します。 from nltk.stem.snowball

    2

    1答えて

    でインドネシア語を語幹私は右ここにいるそのデータの値CSVデータセットを持って enter image description here だから、私はデータを前処理したいです。データのタイプはテキストなので、テキストマイニングを行います。しかし、私はステミングに混乱しています。私はデータを途切れさせようとしましたが、結果はすべてのニュースの言葉の数です。私は私の友人からコード参照を取得するが、私は

    2

    1答えて

    私は雪球ステミングアルゴリズムを理解しようとしています。 HW90には例と同様の質問がありましたが、私のものではありませんでした。母音に続く最初の非母音の後の領域であるか、または存在する場合、単語の終わりに ヌル領域で R1:algorithmusは、以下のようにdefiniedされた2つの領域R1およびR2を使用していますそのような非母音はありません。 R2は、R1の母音に続く最初の非母音の後の

    3

    1答えて

    私のpython 2.7を持っていると私はthisをインストールするために動作しません、私はこのコードを持っていますだから私は何を変えるべきですか?