JavaでPOSタグを構築する必要があり、開始方法を知る必要があります。 POSタガーがどのように機能するかを示すコード例やその他のリソースはありますか?品詞タグを構築する(POS Tagger)
答えて
既存のタグ付けの実装を調べることができます。
(クリスティーナToutanovaによる)は、Javaでのスタンフォード大学POSタガーに例えば参照してください、それはGNU一般公衆利用許諾契約書(後v2または)の下で提供され、ソースコードがよく書かれており、明確に文書化されています
http://nlp.stanford.edu/software/tagger.shtml
タギングについて読むこと良い本です: 音声・言語処理(第2版)ダニエル・ジューラフスキーによって、ジェームズ・H.マーティン
私は、スタンフォードPOSタガーが、その複雑な(そして一回限りの)確率モデルを前提にして、良い実装であるかどうかは分かりません。しかし、Jurafsky&Martinは読むべき本です。 –
Apache OpenNLPを試してみてください。これには、POS Taggerツールが含まれています。すぐに使える英語モデルはhereからダウンロードできます。
ドキュメントには、Javaアプリケーションからの使用方法の詳細が記載されています。基本的には次が必要です
InputStream modelIn = null;
try {
modelIn = new FileInputStream("en-pos-maxent.bin");
POSModel model = new POSModel(modelIn);
}
catch (IOException e) {
// Model loading failed, handle the error
e.printStackTrace();
}
finally {
if (modelIn != null) {
try {
modelIn.close();
}
catch (IOException e) {
}
}
}
は、POSタガーをインスタンス化
ロードPOSモデル
POSTaggerME tagger = new POSTaggerME(model);
実行し、それ
String sent[] = new String[]{"Most", "large", "cities", "in", "the", "US", "had", "morning", "and", "afternoon", "newspapers", "."};
String tags[] = tagger.tag(sent);
POSタガーではトークン化された文が必要です。 Apache OpenNLPは、これらのタスクを支援するツールとモデルも提供しています。
独自のモデルを訓練する必要がある場合は、documentationを参照してください。
- 1. Pos Tagger in PHP
- 2. 品詞(POS)タガーを援用する方法
- 3. PHPの品詞タグ付け?
- 4. POS-Taggerは非常に遅いです
- 5. Python NLP POS taggerをC#コードで使用する方法は?
- 6. NLTK(posタグ付け)を使って動詞の無限型を得る方法
- 7. POSタガーのタグを削除する
- 8. 品詞タグ付けを改善するためのコンテキストの使用
- 9. POSタグを使用した文の否定
- 10. Penn Treebankタグ付きNLP POS注釈ツール
- 11. POSタグとtokensregexの単一クエリ
- 12. Pythonでwordnet lemmatizationとposタグ付け
- 13. HTTPステータス500 - javax.servlet.ServletException:java.lang.NoClassDefFoundError:edu/stanford/nlp/tagger/maxent/MaxentTagger
- 14. Stanford-taggerベースのプログラムのパフォーマンスを向上
- 15. バウムウェルチアルゴリズムの実装をデバッグする(POSタグ付け用)
- 16. フォーム入力要素を構築するクラスを構築する
- 17. Nokogiriで空白のXMLタグを構築しますか?
- 18. Wiktionary APIを照会して品詞を得る方法
- 19. ruby regex:POSタグ付きデータの名詞クラスターを置換する
- 20. リポジトリを構築する方法部品の配列を持つエンティティ
- 21. テキストから名詞+名詞または(adj |名詞)+名詞を抽出する
- 22. 変数を構築して、配列変数を構築する
- 23. Gitタグから構築するTFS 2013ビルド定義をセットアップするには?
- 24. 継続的インテグレーションを使用したタグの構築
- 25. フレームワーク再構築モジュールの構築を高速化するには
- 26. プロローグで構文木を構築する
- 27. Wordpressプラグインを構築する
- 28. 迷路を構築する
- 29. キーバリューストアを構築する
- 30. ストアドプロシージャを構築するベストプラクティス
nlpは難解な未解決の問題です。問題を扱っている記事を探して、いくつかの提案されたソリューションを選択して実装し、より良い結果をもたらすものを選択する必要があります。 – amit
ええと... **あなたは一から自分自身を構築する**持っていますか?もしそうでなければ、あなたはAndreyまたはWColenが言いましたOpenNLPによってStanfordのものを使うことができます。スタンフォードの私の好み。それはかなりいいです。ビルドする必要がある場合は、宿題-yプロジェクトのように聞こえます。そうでなければ、本当にあなた自身のものを作る理由はない(私が少なくとも笑って考える理由はない)。 – dmn
POSタガーの作成は大きな作業です。理想的には、注釈付きコーパスを取得し、構文解析し、トークンの頻度を取得し、推定値を取得し、データを平滑化してから、モデルを構築します。このモデルは、ロジットやHMMのようなものを使用して、既存の確率的データのみに基づいている場合や、フィーチャに依存する管理対象の介入やMaxentまたはPerceptronモデルを使用することができます。また、Brilleのようなルールベースのタグを使用することで、確率モデルを完全に回避することもできます。 –