2013-05-28 13 views
6

Stanford POS TaggerでPOSタギングを実行しています。タガーは、入力文に対して可能なタグ付けを1つだけ返します。例えば、入力文「The clown weeps。」を入力すると、POSタガーは(間違った)「The_DT clown_NN weeps_NNS ._」を生成します。スタンフォードPOSタガーで複数のタギングを取得

私のアプリケーションは結果を解析しようとしますが、解析する方法がないためPOSタグ付けを拒否することがあります。したがって、この例では、「The_DT clown_NN weeps_NNS ._」を拒否します。 「The_DT clown_NN weeps_VBZ ._」を受け入れます。これは、パーサの信頼性の低いタグ付けです。

したがって、私は、POSタガーが、ある種の信頼値で注釈付けされた各単語のタグ付けに複数の仮説を提供することを希望します。このようにして、私のアプリケーションは、その目的のために有効な構文解析を達成する最も高い信頼度でPOSタギングを選択することができました。

スタンフォードPOSタグャーに、各単語(または文全体)について複数の(n-best)タグ付け仮説を生成するように求める方法が見つかっていません。これを行う方法はありますか? (代わりに、これに対応する性能を備えた別のPOSタガーを使用しても問題ありません)

+0

質問おそらく(も未回答)これに関連http://stackoverflow.com/questions/15574915/stanford-core-nlp-how-to-get-the-probability-margin:私はそうのようにそれを含めます-of-error –

答えて

-1

POSタグインのデフォルトモデルは十分ではありませんでした。それは、はるかに良いタグを別のモデルを使用して判明した。私たちは現在、wsj-0-18-bidirectional-distsimを使用しており、パフォーマンスはほとんどのタスクにとって十分です。

props.put("pos.model", 
    "edu/stanford/nlp/models/pos-tagger/wsj-bidirectional/wsj-0-18-bidirectional-distsim.tagger"); 
props.put("annotators", "tokenize, ssplit, pos, ..."); 
pipeline = new StanfordCoreNLP(props); 
+0

面白いヒントですが、本当に私の質問に答えません。 :) – a3nm

関連する問題