nltk

5熱

2答えて

MEGAMをNLTK ClassifierBasedPOSTaggerとして使用しようとしていますか？

現在、NLTKを使用した一般的なPOSタガーを構築しようとしています。私は茶色と木造のコーパスを訓練のために手伝ったことがあるが、おそらくツリーバンクのコーパスに定住するだろう。私が行ったことを学ぶと、私は分類器のPOSタグを見つけることが最も正確です。 Maximum Entityクラシファイアは最も正確であることが意図されていますが、学習データセットを大幅に削減しなければならないほどのメモリ

3熱

1答えて

NLTKで文字列の集合からコーパスを作成できますか？

ファイルにアイテムを持たなくてもコーパスを作成する方法はありますか？たとえば、私はウェブからつかむつぶやきや段落を操作したいと思う。私は myCorpus = MyCorpus([ ('id', 'item', 'category'), ('id', 'item', 'category'), ('id', 'item', 'category'), ... ]

10熱

1答えて

NLTK/pyNLTKでは「言語ごとに」（英語以外の言語でも）作業できます

NLTKに特定の言語のテキストを扱うように指示するにはどうすればよいですか？しばらくして、英語以外の（ただしヒンズー語のヨーロッパ語の）テキストドメインにPOSタギング、トークン化などを行う特殊なNLPルーチンを作成します。この質問は、コード/設定変更、唯一異なるコーパスに対処するためではないようだ。 POS tagging in German また、Python用の任意の特殊なヘブライ語/ス

19熱

5答えて

FreqDist with NLTK

PythonのNLTKには、テキスト内の単語の頻度を示す関数FreqDistがあります。私はテキストを引数として渡そうとしていますが、結果は次の形式です：[''、 'e'、 'a'、 'o'、 'n'、 'i'、 't'、 'r' 's'、 'l'、 'd'、 'h'、 'c'、 'y'、 'b'、 'u'、 'g'、 '\ n'、 'm'、 'p' '' '' '' '' '' '' '' ''

0熱

1答えて

S - > NP VP、これらの文章はこの形式に従いますか？

S - > NP VPの形式で（nltkコーパスの最初の発言から）いくつかの文を構文解析していますが、正しく構文解析しているかどうか確認したいのですが、これらの文は前述の形式に従います。、英語は私の母国語ではありません。誰かが特定の文に疑問を持っている場合は、NP VPに従ってください。私に質問してください。なぜ私がそれを選んだのか、そしてあなたにそれを構文解析ツリーとして与える理由を教えてくれ

6熱

1答えて

LingPipeまたはNLTKを使用して名前と場所を抽出する必要がありますか？

名前かかわらず、私は、このデータは、MySQLデータベースに現在ある、と私（ほとんど）は、各選手に別々のレコードを持っているテキストの例の非常に短いバースト "cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to

1熱

5答えて

アイテムのシーケンスを数える、python

文字列textを取り、テキスト中の母音をカウントするためにPython辞書を使って関数count_vowels(text)を定義し、母音頻度情報を文字列として返します。例： >>> count_vowels('count vowels') 'e: 1\nu: 1\no: 2' >>> print count_vowels('count vowels') e: 1 u: 1 o: 2

15熱

3答えて

PyPyはNLTKで動作しますか？

PyPyはNLTKで動作しますか？そうであれば、Bayesianクラシファイアのようにかなりの性能改善がありますか？私たちがいる間、他のpython環境（shedskinなど）はcpythonよりも優れたnlktパフォーマンスを提供しますか？

9熱

2答えて

PythonでNLTKツールキットのデフォルトのチャンクは何ですか？

私はデフォルトのPOSタグ付けとデフォルトのトークン化を使用しています。彼らのデフォルトのチャンカーも欲しいです。 NLTKツールキットの本を読んでいますが、デフォルトのチャンネルがないようですね。

9熱

2答えて

nltkでどの語幹を使うべきですか？

私の目標は、感情的なコンテンツのコーパス（今はtwitter）を分析することです。ちょうど今日、私は感情的な単語の枝の網羅的なリストを持つのとは対照的に、単語の茎を検索するのはちょっとした意味があることに気付きました。そして、私は4つの異なる茎があることを認識するためだけにnltk.stemを探索してきました。私は、LancasterStemmer、PorterStemmer、RegexpStem