nltk

3熱

2答えて

を使用しているとき、私は私のプロジェクトでは、あなたが行うことになっているNLTKデータをダウンロードするために、NLTK使用しようとしています： >>> import nltk >>> nltk.download() しかし、私は、HTTPエラー403を取得しておきます。私はオンラインでチェックし、誰もが最新のnltk URLにデフォルトのURLを変更すると言っていますが、うまくいかず、エ

0熱

1答えて

文字列のリストで1つの文字列だけのsynsetを取得する方法はありますか？

私はリストの中で文字列のsynsetを見つけようとしています。ここに私のコードは次のとおりです。私はちょうど1つの文字列ののsynsetを取得したい場合 [[[(u'orange', 'NN')], [(u'orangeness', 'NN')], [(u'orange', 'NN'), (u'tree', 'NN')], [(u'Orange', 'NN')], [(u'Orange', 'N

0熱

1答えて

NERシステムの精度を計算するには？

コーパスに存在する名前付きエンティティを抽出するためにいくつかのNERツールを使用しており、NLTK Pythonモジュールを使用してその精度をテストしたいと考えています。私が使用しているツールのいくつかは、次のとおりです。 NTLK スタンフォード大学のNER：https://nlp.stanford.edu/software/CRF-NER.shtml MeaningCloud：https:

0熱

1答えて

Nltkのwordnet lemmatizerはすべての単語を非文字化していません

私はテキスト内の単語を字形化しようとしています。次のように私はNLTKのWordNet Lemmatizerを使用しています「漬物」例えばLIKE「ピクルス」に変わります、「RUN」に「走り」、「レーズン」「レーズン」になど： from nltk.stem import WordNetLemmatizer >>> >>> lem = WordNetLemmatizer() >>> prin

2熱

4答えて

Pythonで複数のリスト内包表記を行う最も効率的な方法

これらの3つのリスト内包表記を考えれば、3つの意図的なセットよりも効率的な方法がありますか？私は、この場合のループはおそらく悪いフォームだと信じていますが、rowsaslistの多数の行を繰り返し処理すると、私は以下のように効率的ではないと感じます。 cachedStopWords = stopwords.words('english') rowsaslist = [x.lower() for

1熱

1答えて

Python 2から3への移行：NLTKディレクトリを再インストールする必要がありますか？

Python 2から3に移行するときに、Python 3用のNLTKを再インストールする必要があることがわかっていますが、大規模なディレクトリも再インストールする必要がありますか？私はMac OS 10.12.5を使用しています。私はSublime3でPython 2.7を使用しています。私は今、Python 3に移行しています。時にはSublime3やJupyter Notebookで時々動作

2熱

2答えて

Tokenize（）をnltk.TweetTokenizerで分割して整数を返す

Tokenize（）をnltk.TweetTokenizerで返し、32ビットの整数を数字で区切って返します。いくつかの特定の数字だけに起こっている、と私は何らかの理由が表示されません？ >>> from nltk.tokenize import TweetTokenizer >>> tw = TweetTokenizer() >>> tw.tokenize('the 23135851162

0熱

1答えて

Twythonは英語のツイートのみをインポートしていませんか？

私はちょうどthisメソッドを使用していますが、lang = "en"とそれ以外のすべてのバリエーションを英語で指定しようとすると動作しません。これは私が入れていることです（それをさらに制限するキーワードでさえ）、それはまだ私にちょうど英語を与えていません。私はキーワードの有無にかかわらず試しました。私は研究プロジェクトのために英語のみで200,000以上のTweet検索可能なコントロールコーパス

-3熱

2答えて

私はtxtに2つの段落を持っています。私は、PythonのNLTKに一般的にEコマースのように書か

条第1項電子商取引を使用して、両方の段落から一般的な単語を見つけなければならないなどのコンピュータネットワークを利用した商品やサービスに取引の売買または促進、ですインターネットまたはオンラインソーシャルネットワーク。電子商取引は、モバイルコマース、電子資金送金、サプライチェーン管理、インターネットマーケティング、オンライン取引処理、電子データ交換（EDI）、在庫管理システム、自動データ収集システ

1熱

1答えて

LCH類似性 - 同じPOSが必要ですか？私のコーパスに便利/最も関連性があるかを確認するためのWordNetの類似度を比較すると、Pythonの

は - LCHを計算しようとすると、このエラーメッセージに出くわした - 「LCHの類似性がSynset（ 'home'.n.01）を必要とコンピューティングとSynset（ 'chronological.a.01'）が同じ部分の発言をしています。 lchを試す前に、リスト内のすべての単語を同じPOSにする必要がありますか？参考のために、POS正規化なしでwup_similarityを正常に計算