nltk

0熱

1答えて

私はNLTKで新しく、レビューのための分類子の作成に問題があります。私は、入力として渡されたデータは、形状（10000,1）であったとき、変換されたデータの形状は1 * 1スパース行列であるかを理解することができません私は、元のレビューデータを処理しています少し。ストップワードの削除、句読点のステミングと削除など。私はどこが間違っているのかについて助けが必要であり、問題を見つけるためにさ

0熱

1答えて

エンロンの電子メールの本文から「転送されたメッセージ」のタイトルと不要なコンテンツを削除するにはどうすればよいですか？

私は、ストップワードを削除し、NLTKで文章に分割することで、これらの電子メールのテキストを処理できるように、エンロン電子メールのすべてのボディを1つのファイルに追加しようとしています。私の問題は、転送されたメッセージと返信されたメッセージで、私はそれらをきれいにする方法がわかりません。これは、これまでの私のコードです： import os, email, sys, re,nltk, ppri

0熱

1答えて

nltk.FreqDist（）関数で "TypeError：unhashable type： 'list'"を使用しています。

nltkを使用して、度数に従って語句の度数分布を取得しようとしています。「TypeError：unhashable type： 'list'」と表示されています。問題が何であるか理解していない。助けてください。 P.S：コードには多数のバグがありますので、気にしないでください。私はpythonにnoobとして、私は多くの多くのプログラムからのコードスニペットを使用してキーワード抽出プログラムを構

1熱

1答えて

NLTKとWordnetを使用した同義語のクラスタリング

単語のセットVが与えられたら、同義語をVにグループ化したいと思います。私は入力としてVを取り、同義性に基づいてそれらを自動的にクラスタリングする、NLTKとWordnetに組み込み関数があるかどうか疑問に思っています。私はすでに各単語の同義語を抽出する方法を知っていますが、これは私が探しているものではありません。私がそうした場合、シノニムセットが互いに交差しているか、お互いのサブセット/スーパセ

0熱

1答えて

字句解析の問題（nltk）

私は以下のようにnltk字形解析ツールを使用しています。 from nltk.stem import WordNetLemmatizer lemmatizer = WordNetLemmatizer() mystring = "the sand rock needed to be mixed and shaked well before using it for construction wo

1熱

1答えて

インド語のNLTK CorpusReader

インド政府の調査サイトからダウンロードしたパンジャブ語のコーパスについてNLTKに分析を依頼しようとすると、そのスクリプトはGurmikhiです。私の主な目標は、コーパス全体で単語の頻度分布を得ることです。だから、ここでの目的はすべての単語をトークン化することです。私の問題は、NLTKは、私はPythonのメソッドに建てを使用するときため、テキストを読んでいるかであるように思わ： with op

1熱

1答えて

spacyの文のトークン化が悪い（？）

spacyの文分割/トークナイザが正しく動作しないのはなぜですか？ nltkは正常に動作するようです。ここに私の小さな経験があります： import spacy nlp = spacy.load('fr') import nltk text_fr = u"Je suis parti a la boulangerie. J'ai achete trois croissants. C'etai

0熱

1答えて

NLTK継続的なNPCフンバーがValueErrorを投げた

nltk.orgの第7章で取り組んでみました。特に、ここではhttp://www.nltk.org/book/ch07.htmlのセクション3.2にはConsecutiveNPChunkerクラスがあります。私はコードを複製しようとしました。しかし、それは一貫して次を投げたValueError。次のように私のコードは次のとおりです。 import nltk from nltk.corpus i

1熱

1答えて

辞書ベースの感情分析の精度

私は、取得した一連のTwitterデータに対して異なる感情分析手法を実行しています。それらはレキシコンベース（Vader SentimentおよびSentiWordNet）であり、事前ラベルされたデータを必要としない。クラシファイアの精度を計算する方法（F-Score、ROC/AUCなど）があるのだろうかと思っていました。私が知っているメソッドのほとんどは、結果を比較するターゲットが必要です。

0熱

1答えて

しきい値を使って行列を数えよう

私は類似性を分析するために必要な何百ものtxtファイルがあるフォルダを持っています。以下は、類似性分析を実行するために使用するスクリプトの例です。最後に、私は、など私がプロットすることができ、配列や行列を取得私は、同じファイルを比較するときcos_similarity == 1を取り除く、cos_similarity > 0.5（または、私が使用することを決定し、他のしきい値）でありますどのよう