nltk

    3

    1答えて

    Python/NLTKでアラビア語を英語に翻訳するために使用できるモジュールはありますか?

    8

    5答えて

    nグラム(n> 3)(およびその出現頻度)を計算する際の計算上のオーバーヘッドを考慮して、何が使用されているのか疑問に思っています。バイグラムやトリグラムだけでは十分ではないアプリケーションはありますか? もしそうなら、nグラム抽出の最先端技術は何ですか?助言がありますか?私は、次の点に注意しています: A new method of n-gram statistics for large num

    4

    1答えて

    NLTK名前付きエンティティタグを使用して、さまざまな名前付きエンティティを識別しようとしています。本書ではPythonでの自然言語処理には、DATE June、2008-06-29とTIMEの2つの50分、1:30 p.m.を含む一般的に使用される名前付きエンティティのリストが提供されています(誰かが好奇心を持っている場合は、表7.4)。だから、NLTKの名前付き実体タグ・タグでこれを行うことが

    -1

    2答えて

    こんにちは、 "NLTK cookbook"のテキストといくつかのフィーチャエクストラクタを含むfeatx.pyモジュールへのブックリファレンスを分類するいくつかの例を試しています。 問題はどこでもfeatx.pyモジュールが見つかりません。 ありがとうございました。

    8

    1答えて

    正規表現と関連がある問題とPythonのCategorizedPlaintextCorpusReaderという問題があります。 私はカスタムの分類コーパスを作成し、Naive-Bayesクラシファイアをトレーニングしたいと考えています。私の問題は次のとおりです。「pos」と「neg」の2つのカテゴリが必要です。正のファイルはすべて1つのディレクトリのmain_dir/pos/*.txtにあり、負の

    1

    1答えて

    私はnltkとpythonでnoobです。最近問題がありました。変数に端末でtext.similar()を表示したいのですが、失敗しましたどうすれば保存できますか?悲しいことに text = nltk.Text(word.lower() for word in nltk.corpus.brown.words()) save = [] for word in nltk.word_tokenize

    3

    2答えて

    JepはまだPythonで遊んでいます。 私は、選択された単語&のトピックを見つけるためのツールGensimを試してみることにしました。 私はどのようにテキストのセクションで単語を見つけ、それと一緒に20単語を抽出するのだろうと思った(そのスペキュラの単語の前の10単語とその特定の単語の後の10単語のように) Gensimを実行することができます。 私にとって難しいと思われることは、選択された単語

    5

    4答えて

    フリーテキスト、リスト、表、見出しなどを含むHTMLページを文章に解析するにはどうすればよいですか? たとえば、this wikipedia pageとします。 /ありさ: フリーテキスト:http://en.wikipedia.org/wiki/Neurotransmitter#Discovery リスト:http://en.wikipedia.org/wiki/Neurotransmitter

    7

    1答えて

    オランダ語から名前付き実体を抽出しようとしています。私はnltk-trainerを使用して、conll2002 dutch corpusのタグャーとチャンクをトレーニングしました。ただし、チャンクの解析メソッドは名前付きエンティティを検出していません。ここに私のコードは次のとおりです。 str = 'Christiane heeft een lam.' tagger = nltk.data.l

    0

    1答えて

    皆さん、基本的に単純なXMLファイルであるNLTK用のコーパスセットをまとめました。私はそのようなことがうまくロードできます >>> from nltk.corpus import cicero >>> print cicero.fileids() ['cicero_academica.xml', 'cicero_arati_phaenomena.xml', ...] は今、私は右、それは