pos-tagging

0熱

2答えて

テキストから情報を抽出しようとしていますが、NLTKチャンクを使用しています。ここでが The stocks show 67% rise, last year it was 12% fall私は 67% riseと上記の文をタグ付け12% fall POSをキャプチャしたい今すぐ ('The', 'DT'), ('stocks', 'NNS'), ('show', 'VBP'), ('67',

0熱

1答えて

スタンフォードを使用する私はposタグ付けをした後に私の文章ですべての形容詞と名詞を取得したい、別々の文字列に格納したい

POSタガーを使用して今私は名詞と形容詞を別々の文字列に保存したい。どうすればよいですか？例：The/DT large/JJ photo/NN album/NN has/VBZ extra/JJ charges/NNS on/IN delivery/NN

0熱

1答えて

1つのタグのセットが解析されないのはなぜですか？

私は非常に単純なパーサを使ってWSJコーパスからいくつかのタグ付き文をチャンクすることになっています。私は自分自身で文章にタグを付けますが、タグ付きの文章を得るために与えられた方法を使用してはいけません。私の割り当てでは、WSJコーパスnltk.corpus.treebank.tagged_sents（）のタグ200-220を使用するように指示されました。私のパーサーは私にエラーを与えています。

0熱

2答えて

Rubyのハッシュから重複した部分文字列をフィルタリングする

私はRailsアプリケーションを使ってニュースページからRSSフィードを取得し、品詞タグ付けをタイトルに適用し、タイトルから名詞句を取得し、それぞれが発生します。私は他の名詞句の一部である名詞句をフィルタリングする必要があり、そうするために、このコードを使用しています： filtered_noun_phrases = sorted_noun_phrases.select{|a| sort

1熱

1答えて

Keras：POSタグ付けタスクの埋め込みレイヤーとLSTMレイヤー

私はタグ付きの文章のリストを持っています。私は、次の方法でそれらのそれぞれを形質転換：各ワードについて、相対ワンホットエンコード形式（寸法input_dimのベクトル）を取得します。以下の例で説明するように、プレパッディングを挿入します。スプリットサイズtime_stepsのウィンドウを使用してlen(sentence)サブ文章中の各文、（次の単語を予測するためのコンテキストを取得します）。

0熱

1答えて

ブラウンコーパスはHMMおよびTnTタガーによる結果を得ない

POSタグャーに関する最も動的なコーパスはツリーバンクコーパスです。しかし、Brown Corpus JustはHMMとTnT taggerの両方で結果を出すことを拒否しています。それについての説明は？ size = int(len(brown.tagged_sents())*0.9) train = brown.tagged_sents()[:size] test = brown.tagge

0熱

1答えて

POSタグャーと頭字語の適切な名詞の検出

ストラスブールのCDSの自然言語検索エンジンで作業しています。（ストラスブールの天文データセンター）頭字語がNNPとタグ付けされることがあり、時にはNNとタグ付けされることがあるため、スタンフォード品詞タグが頭字語にどのようにタグ付けしていたのか疑問に思っていました。 "CDS"や "NASA"のような頭字語がNNPかNNかどうかについて、プログラムがどのように決定しているかを正確に見つけるこ

2熱

1答えて

CoreNLPコードでは、Penn Treebank品詞シンボル自体が実際に表現されていますか？

私は、さまざまな品詞が内部的に表現されるいくつかのデータ構造、列挙、または生成プロセスを特に探しています。私はJavadocとソースコードをしばらくスキャンして、探しているものを見つけることができませんでした。可能であれば、いくつかの中央の場所に保管されていれば、タグのコレクションに直接アクセスしたいと思います。私が疑問に思っている質問が、CoreNLPのpos-taggingが動作する方法につい

0熱

2答えて

NLTKのタグ付き文の（単語、pos）タプルのPOSの数をカウントする

私はタプルのリストを持っており、タプルのキーの数を数えようとしています。私はu'VBD」の数をカウントした場合print treebank_flipped_countは、実際に、私はそれらを一緒にカウントしたい場合、すべての独立した例であることを明らかにし、以下、 import nltk from nltk.corpus import treebank from collections imp

0熱

2答えて

Rで単語/トークンのPOSタグを作成する

私はRで持っているリストから単一の単語/トークンのPOSタグを作成する方法を探しています。私は単一のトークンに対して行うと精度が低下することを知っています文章の代わりに、私が持っているデータはWikipediaから「編集を削除する」ものであり、人々は主に全文の代わりに単一の未結合語を削除します。私はこの質問をPythonのために数回見ましたが、私はまだRのための解決策を見つけていません。私のデー