regexner
注釈を使用するのが最も簡単で簡単な方法です。これを使用して手動で辞書を構築することができます。ここ
は、例えば、ルール形式である2
トークンシーケンスタグタグは、その--上書きでき
システム管理者タイトルMISC(タブで区切られた、最初の列は、単語の任意の数であってもよいです)
上記の規則では、テキストに「システム管理者」というタイトルが付けられます。あなたのケースでは
:
ベラクルスLUG MISC、ORG、PERS 2
これは、辞書はMISC、ORGS、とPERSを上書きすることができます。 3番目の列に余分なタグを追加しないと、以前にタグ付けされたnerタグは上書きされません。
あなたはそれを実行するには、このようなコマンドを使用する場合があります。
java -Xmx8g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,regexner -props StanfordCoreNLP-spanish.properties -regexner.mapping /path/to/new_spanish.rules - regexner.ignorecase -regexner.validpospattern "^(NN|JJ|NNP).*" -outputFormat text -file sample-text.txt
注regexner.ignorecase
はケースレスの試合をすることを意味し、-regexner.validpospattern
はあなたが唯一の指定されたPOSタグパターンを有する配列と一致する必要がありますと言っていること。
言われているこのすべては、私はちょうど文に走っ:
Ella fue a Veracruz.
、それが適切にタグ付けされています。 Veracruzに間違ったタグを付ける原因となった文章を教えてください。
RegexNERアノテーターには、辞書に項目を追加するための良い文書があります。http://nlp.stanford.edu/software/regexner.html – StanfordNLPHelp