nltk

    5

    2答えて

    現在、NLTKを使用した一般的なPOSタガーを構築しようとしています。私は茶色と木造のコーパスを訓練のために手伝ったことがあるが、おそらくツリーバンクのコーパスに定住するだろう。 私が行ったことを学ぶと、私は分類器のPOSタグを見つけることが最も正確です。 Maximum Entityクラシファイアは最も正確であることが意図されていますが、学習データセットを大幅に削減しなければならないほどのメモリ

    3

    1答えて

    ファイルにアイテムを持たなくてもコーパスを作成する方法はありますか?たとえば、私はウェブからつかむつぶやきや段落を操作したいと思う。私は myCorpus = MyCorpus([ ('id', 'item', 'category'), ('id', 'item', 'category'), ('id', 'item', 'category'), ... ]

    10

    1答えて

    NLTKに特定の言語のテキストを扱うように指示するにはどうすればよいですか? しばらくして、英語以外の(ただしヒンズー語のヨーロッパ語の)テキストドメインにPOSタギング、トークン化などを行う特殊なNLPルーチンを作成します。 この質問は、コード/設定変更、唯一異なるコーパスに対処するためではないようだ。 POS tagging in German また、Python用の任意の特殊なヘブライ語/ス

    19

    5答えて

    PythonのNLTKには、テキスト内の単語の頻度を示す関数FreqDistがあります。私はテキストを引数として渡そうとしていますが、結果は次の形式です:[''、 'e'、 'a'、 'o'、 'n'、 'i'、 't'、 'r' 's'、 'l'、 'd'、 'h'、 'c'、 'y'、 'b'、 'u'、 'g'、 '\ n'、 'm'、 'p' '' '' '' '' '' '' '' ''

    0

    1答えて

    S - > NP VPの形式で(nltkコーパスの最初の発言から)いくつかの文を構文解析していますが、正しく構文解析しているかどうか確認したいのですが、これらの文は前述の形式に従います。 、英語は私の母国語ではありません。誰かが特定の文に疑問を持っている場合は、NP VPに従ってください。私に質問してください。なぜ私がそれを選んだのか、そしてあなたにそれを構文解析ツリーとして与える理由を教えてくれ

    6

    1答えて

    名前かかわらず、私は、このデータは、MySQLデータベースに現在ある、と私(ほとんど)は、各選手に別々のレコードを持っているテキストの例の非常に短いバースト "cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to

    1

    5答えて

    文字列textを取り、テキスト中の 母音をカウントするためにPython辞書を使って関数count_vowels(text)を定義し、 母音頻度情報を文字列として返します。例: >>> count_vowels('count vowels') 'e: 1\nu: 1\no: 2' >>> print count_vowels('count vowels') e: 1 u: 1 o: 2

    15

    3答えて

    PyPyはNLTKで動作しますか?そうであれば、Bayesianクラシファイアのようにかなりの性能改善がありますか? 私たちがいる間、他のpython環境(shedskinなど)はcpythonよりも優れたnlktパフォーマンスを提供しますか?

    9

    2答えて

    私はデフォルトのPOSタグ付けとデフォルトのトークン化を使用しています。彼らのデフォルトのチャンカーも欲しいです。 NLTKツールキットの本を読んでいますが、デフォルトのチャンネルがないようですね。

    9

    2答えて

    私の目標は、感情的なコンテンツのコーパス(今はtwitter)を分析することです。ちょうど今日、私は感情的な単語の枝の網羅的なリストを持つのとは対照的に、単語の茎を検索するのはちょっとした意味があることに気付きました。そして、私は4つの異なる茎があることを認識するためだけにnltk.stemを探索してきました。私は、LancasterStemmer、PorterStemmer、RegexpStem