nltk

    1

    1答えて

    私はNLPを勉強しており、NLTKとテキスト分類のためのscikit-learnを使用することを学んでいます。そこで、NLTKのmovie_reviewコーパスにUnigramの存在をフィーチャーとして実装しました。今、私は、彼らが複数の機能を使用していた研究論文を実装しようとしています:私は唯一のこれまで1つの特徴機能を実装しているので、私は今問題を抱えています 1. N-Gram Featur

    1

    1答えて

    私はテキストデータのデータベースを持っていて、データベース全体から単語数を得るための小さなカウンタを作成しました。最も一般的な言葉は通常の容疑者( 'is'、 'and'など)であり、最も一般的なものは、emojis、ドル値、タイプミスなどがあります。私はテキストから単語を削除して、最も一般的ではない、あるいは最も一般的でない値をベクトル化できるようにしたいと思います。しかし、非常に珍しい/異常な

    0

    1答えて

    私は文字列のリストを持っている: words1 = ['feds', 'move', 'to', 'require', 'cartocar', 'safety', 'communication'] 私はNLTKのWordNetのののsynsetを使用して、その単語のそれぞれのためのsynsetを見つけたいです。まず、私は自分のリストに1つの文字列を使用します。 私のコードは次のとおりです。 f

    0

    1答えて

    私はテキストを入力していますが、これはあくまでブリークとワーストです。 I have a text as an input, where there are occassionaly broken words.として出力を返すことができNLTKまたは類似の関数はありますか?

    1

    1答えて

    Pythonでは、私はmakovifyを使って、マルコフモデルを作成して、ランダムな文章を生成します。私はまた、マルコフモデルを文構造に従わせるためにnltkを使用しています。マルコフモデルを大量のコーパスから、特にnltkの品詞タグを使って生成するにはかなりの時間がかかるので、毎回同じモデルを生成するのは無駄です。そのため、マルコフモデルを後で再利用するJSONファイルとして保存することにしまし

    1

    1答えて

    私は動詞を名詞から、PythonでWordnetで取得しようとしています。ここ は、コードは次のとおりです。 nouns = ["slip", "frustration"] def nominalization(noun_word): set_of_related_verbs = set() for lemma in wn.lemmas(wn.morphy(noun_wor

    2

    3答えて

    私は電子メールを使ってメッセージの本文を取り除き、スポーツ、政治、技術などのラベルを使って電子メールパッケージを取り除くプロジェクトに取り組んでいます。私は電子メールからメッセージ本文を削除しました。私は分類を開始しようとしています。 スポーツ、技術、政治、エンターテインメントのような複数のラベルを作成するには、ラベルを作成するためにそれぞれの単語のセットが必要です。フットボール、サッカー、ホッケ

    0

    1答えて

    過去の完璧な形の「私は愛しています。 「私は愛していた」私は、POSタグ(NLTK、spacy、Stanford CoreNLPを使用)からそのような過去の完成を特定しようとしています。どのようなPOSタグを探していますか?代わりに..私は単語の過去の形を探している必要があります..それは網羅的であろうか? I PRP PRON had VBD VERB loved VBN VERB . . PU

    2

    1答えて

    私はそれらのテキストファイルを読み込み、それらにラベルを付ける2つのディレクトリがありますが、TaggedDocument経由でこれを行う方法がわかりません、TaggedDocument([Strings]、[Labels])として機能すると思っていましたが、明らかに仕事をしている。これは私のコードです: from gensim import models from gensim.models.

    2

    1答えて

    、単語「幸せ」が付与され、私は喜んで、そのような幸福など幸せの他のフォームを生成したいとし...など 私はstackoverflowのとNLTK参照上の他のいくつかの以前の質問を読みました。しかし、POSタグ付けだけがあり、文章内の特定の単語の文法的な形を識別し、異なる単語のリストを生成するのと同じように変形する。同じような問題にぶつかった人はいますか?ありがとうございました。