OpenNLPモデルのトレーニングデータセットを取得するには？

en-parser-chunking.bin 
en-ner-person.bin 
en-ner-location.bin 
en-ner-organization.bin

は、私はこれらのモデルが訓練されているトレーニングデータセット内の私のデータを追加します。ですから、私はその生データセットをどこから得ることができるのか教えてください。

がofficial OpenNLP manualのセクションチャンカトレーニングはEN言語モデルファイルの訓練のために使用される生データへの参照を言及：

トレーニングデータをOpenNLPチャンカトレーニング形式に変換することができ、これはCoNLL2000に基づいています。

またOpenNLPのために/で使用される外部リソースに、第12章コーパス、例えば、他の文献を検索します。

また、CoNLL2003コーパスは参考になります。

英語データがニュースワイヤー記事のコレクションですロイターコーパス、です。ロイター・コーパスは、研究目的でNISTから無料で入手することができます。http://trec.nist.gov/data/reuters/reuters.html

希望すると助かります。

2017-02-02 13:41:48 MWiesner

openNLP APIを使用して、独自のサンプルデータで既存のNERモデルを訓練する方法を教えてください。 –

これはStOfのもう一つの質問です。私は「あなたがその生データセットをどこから得ることができるか」という質問に対する答えをあなたに提供しました。 IMHOは有効で受け入れられる答えを与えます。あなたは別の新しい質問をすることを検討するかもしれません、そして、私はそれを見ます。 – MWiesner

私はReutersデータセットを持っていますが、今は自分のデータを追加する方法を知りたいだけです。 –

利用可能なアドオンがあります。このmodelbuilder-addonを使用して、既存のNERモデルを更新し、新しいモデルをより迅速に作成します。

リンク内のコードは、あなたの文章の中で読まれるもので、デフォルトのエンターナーモデルを使用して最適です。次に、それらの結果を良いヒットのファイルとヒットの悪いファイルに書き込みます。次に、それらのファイルを最下部の "modelbuilder-addon"コールに送ります。

希望すると便利です。

2017-02-11 08:26:15 Nuwanda

答えて