2010-11-29 12 views
3

私は誰かが素早く汚いテキスト/文法パーサーを知っていますか?

したい「怒っLIB」シナリオa)は、すべての品詞を決定する(または文の中で最も)の単語
b)はその言葉に、ユーザ選択の選択肢を持っている必要があります - またはそれらを等価な言葉で計算的に置き換えてください

私はスタンフォードパーサーを見ましたが、少し遅いです...どのような提案ですか?

答えて

3

は、あなただけの品詞(POS)タグとない構文木を使用している場合は、あなたが実際にパーサーを使用する必要はありませんPOSタガー

を使用してください。代わりに、スタンドアロンのPOSタガーを使用することができます。

POSタグ付けはです。フレーズ構造解析よりも高速です。です。 Xeon E5520では、Stanford POS taggerは3秒間に1700文のタグを付けることができますが、同じデータはStanford ParserCer et al. 2010)を使用して解析するのに約10分かかります。

他のPOSタガーのかなりのリストhereがあります。

+0

+1を参照してください。 –

0

ツールキットのアプローチには、NLTKツールキットがあります。これはPythonで書かれていますので、似たような速度はあなたが望むものではないかもしれません。教えることを目的としたツールキットであるため、実装できるさまざまなアプローチがたくさんあります。つまり基礎となる言語が最も速く利用できない場合でも、簡単なパーサ/タグを実装するのは簡単かもしれません。

関連する問題