私はのテキストをすでにトークン化、文分割、およびPOSタグ付けしています。CoreNLP:posタグを提供
私はさらに注釈見出し語(lemma
)、名前付きエンティティ(ner
)、contituencyと依存関係の解析(parse
)、およびcoreferences(dcoref
)にCoreNLPを使用したいと思います。
コマンドラインオプションと、コマンドラインからこれを可能にするオプションファイル指定の組み合わせはありますか?その残っているすべてはであり、これはうまく機能
tokenize.whitespace = true
ssplit.eolonly = true
:
this questionによると、私はトークンを区切るように空白を表示するパーサを求めることができ、そして私の性質にこれを追加することによって、文章を区切りとして改行をファイル私がPOSタグを提供したいとCoreNLPに指定してください。
スタンドフォードパーサーを単独で使用する場合、既存のPOSタグを使用するにはseems to be possibleを使用しますが、その構文をCoreNLPの呼び出しにコピーすることは機能していないようです。たとえば、これは動作しません:
java -cp *:./* -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -props my-properties-file -outputFormat xml -outputDirectory my-output-dir -sentences newline -tokenized -tagSeparator/-tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerMethod newCoreLabelTokenizerFactory -file my-annotated-text.txt
this questionは、プログラムの呼び出しをカバーしていますが、私はCoreNLPがより大きなシステムの一部としてコマンドラインを形成呼び出すので、私は本当にこれがでこれを達成することが可能であるかどうかを聞いていますのよコマンドラインオプション。