私は、さまざまな品詞が内部的に表現されるいくつかのデータ構造、列挙、または生成プロセスを特に探しています。私はJavadocとソースコードをしばらくスキャンして、探しているものを見つけることができませんでした。可能であれば、いくつかの中央の場所に保管されていれば、タグのコレクションに直接アクセスしたいと思います。私が疑問に思っている質問が、CoreNLPのpos-taggingが動作する方法についての素朴な前提を構成していれば私を許してください。しかし、私が記述しているものが何らかの形で存在すれば、これは非常に役に立ちます。ありがとう!CoreNLPコードでは、Penn Treebank品詞シンボル自体が実際に表現されていますか?
2
A
答えて
1
実際にコードのどこに明示的に表現されているのかわかりません。タガーは固定列挙型ではなく単にストリングとして出力し、出力空間はトレーニングデータから直接推測されます。これは、任意のタグセットで正確に同じモデルを訓練できるという利点があります。そして、もちろんあなたが直面している不利益。答えをhttps://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
関連する問題
- 1. Penn Treebank Tokenizerの実装はPerlにありますか?
- 2. Penn Treebankタグ付きNLP POS注釈ツール
- 3. ApacheでPHPコードが実行されず、コード自体が表示されます
- 4. スタンフォードCoreNLPスペイン選挙区のパーサーを訓練するために使用されたtreebankは何ですか?
- 5. 私はpython/nltkの中で完全なpenn treebankデータセットを使うことができます
- 6. 英語の品詞識別の正規表現はありますか?
- 7. 実際のテキストの代わりに私の応答に奇妙なシンボルが表示されています
- 8. 現在クロムに表示されていないSVGシンボル
- 9. mallocのポインタ自体がNULLにリセットされていますか?
- 10. 正規表現は、テストケースで動作しますが、実際のコード
- 11. Penn TreebankからPythonとNLTKを使って一連の文法ルールを取得するにはどうすればよいですか?
- 12. robots.txtコンテンツ自体がインデックスに登録されていますか?
- 13. データは実際には実現されずにコンボボックスに保存されます
- 14. これはemberJSフレームワークで実際に表現されているものですか?
- 15. グラフデータ構造 - 実際のアプリケーションではどのように表現されていますか?
- 16. PHPコードが表示されていて実行されていませんか?
- 17. 自動認識マスクはいつ実現されますか?
- 18. Swing JDialogボックス自体が表示されますか?
- 19. オブジェクト自体をメソッドに渡して実際に変更される方法はありませんか?
- 20. Python。この表現は実際に何をしていますか?
- 21. twilioは動詞動詞にネストされたと言っています
- 22. Javascript setInterval自体がクリアされていますか?
- 23. JTabbedPane自体がランダムに表示されます
- 24. Apache Camel:実際に何がルーティングされていますか?
- 25. コードはRSpecで実際にアサートしていませんか?
- 26. 正規表現のネストされた数量詞+
- 27. インポートには実際にモジュールが含まれていますか?
- 28. RDFには実際にデータが含まれていますか?
- 29. ブロック全体がナビゲーションバーに表示されていませんか?
- 30. nhibernateは、実際にはエンティティ自体ではないテーブルをどのように扱いますか?
ありがとう::)
しかし、英語の場合、タグセットは、ペンツリーバンクのタグセットでなければなりません。ええ、それは私が考えているかもしれないものです。私はそれがPTBを使用していることを知っています(そして、あなたの答えから、なぜトレーニングの仕組みが特定のツリーバンクモデルに適合しないのか理解しています)。比較のために値を手作業でコピーする自分の能力を信頼しなくても、何らかの形で(たとえプログラムでさえ)でも値にアクセスすることができれば、私の現在のプロジェクトではうれしいでしょう。私たちプログラマーは、何とか自動化するのではなく、このようなことをするのが一般的ではないので、どこから来ているのか理解できます。しかたがない。助けてくれてありがとう。 :) –
したがって、 'AbstractSequenceClassifier#labels()'を見てみると、ラベル空間のシーケンスモデルのビューが得られます。しかし、(1)これは必ずしも正確である必要はなく(例えば、理論上、トレーニングセットより多くのラベルを有することができる)、(2)実際のパイプラインから取得するのは苦痛である。私はちょうどenumにタグをハードコーディングすることをお勧めします。 CoreNLPでは時間の経過とともに多くのことが変化しますが、POSタグセットはその1つではありません –