nltk

3熱

1答えて

Python/NLTKでアラビア語を英語に翻訳するために使用できるモジュールはありますか？

8熱

5答えて

nグラム（n> 3）（およびその出現頻度）を計算する際の計算上のオーバーヘッドを考慮して、何が使用されているのか疑問に思っています。バイグラムやトリグラムだけでは十分ではないアプリケーションはありますか？もしそうなら、nグラム抽出の最先端技術は何ですか？助言がありますか？私は、次の点に注意しています： A new method of n-gram statistics for large num

4熱

1答えて

名前付きエンティティとして日付を認識するためにnltkを使用しますか？

NLTK名前付きエンティティタグを使用して、さまざまな名前付きエンティティを識別しようとしています。本書ではPythonでの自然言語処理には、DATE June、2008-06-29とTIMEの2つの50分、1:30 p.m.を含む一般的に使用される名前付きエンティティのリストが提供されています（誰かが好奇心を持っている場合は、表7.4）。だから、NLTKの名前付き実体タグ・タグでこれを行うことが

-1熱

2答えて

どこからfeatx.pyモジュールを入手できますか？

こんにちは、 "NLTK cookbook"のテキストといくつかのフィーチャエクストラクタを含むfeatx.pyモジュールへのブックリファレンスを分類するいくつかの例を試しています。問題はどこでもfeatx.pyモジュールが見つかりません。ありがとうございました。

8熱

1答えて

NLTKとPythonでカスタムカテゴリコーパスを作成する

正規表現と関連がある問題とPythonのCategorizedPlaintextCorpusReaderという問題があります。私はカスタムの分類コーパスを作成し、Naive-Bayesクラシファイアをトレーニングしたいと考えています。私の問題は次のとおりです。「pos」と「neg」の2つのカテゴリが必要です。正のファイルはすべて1つのディレクトリのmain_dir/pos/*.txtにあり、負の

1熱

1答えて

変数を使用してnltk Text.similar（）を保存するには

私はnltkとpythonでnoobです。最近問題がありました。変数に端末でtext.similar（）を表示したいのですが、失敗しましたどうすれば保存できますか？悲しいことに text = nltk.Text(word.lower() for word in nltk.corpus.brown.words()) save = [] for word in nltk.word_tokenize

3熱

2答えて

単語とセクション（Python）からさらに20単語を抽出する

JepはまだPythonで遊んでいます。私は、選択された単語&のトピックを見つけるためのツールGensimを試してみることにしました。私はどのようにテキストのセクションで単語を見つけ、それと一緒に20単語を抽出するのだろうと思った（そのスペキュラの単語の前の10単語とその特定の単語の後の10単語のように） Gensimを実行することができます。私にとって難しいと思われることは、選択された単語

5熱

4答えて

HTMLを文章に解析する - テーブル/リスト/見出し/などを扱う方法？

フリーテキスト、リスト、表、見出しなどを含むHTMLページを文章に解析するにはどうすればよいですか？たとえば、this wikipedia pageとします。 /ありさ：フリーテキスト：http://en.wikipedia.org/wiki/Neurotransmitter#Discovery リスト：http://en.wikipedia.org/wiki/Neurotransmitter

7熱

1答えて

NLTKの名前付き実体認識

オランダ語から名前付き実体を抽出しようとしています。私はnltk-trainerを使用して、conll2002 dutch corpusのタグャーとチャンクをトレーニングしました。ただし、チャンクの解析メソッドは名前付きエンティティを検出していません。ここに私のコードは次のとおりです。 str = 'Christiane heeft een lam.' tagger = nltk.data.l

0熱

1答えて

NLTKでコーパスの複数のXMLファイルを読み込み、Textクラスで全体として使用する方法は？

皆さん、基本的に単純なXMLファイルであるNLTK用のコーパスセットをまとめました。私はそのようなことがうまくロードできます >>> from nltk.corpus import cicero >>> print cicero.fileids() ['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...] は今、私は右、それは