私は最近、Stanford NLPパーサーを発見しました。私は現在、私たちのプロジェクトで動作しているが、下記の2つの問題に直面している実際のインスタンスを持っています。Java、Stanford NLP:パーサーから特定の音声ラベルを抽出する
- がどのように私は、テキストを解析し、解析されたデータからのみ、特定の音声ラベルを抽出することができ、例えば、どのように私は、文からだけ
NNPS
とPRP
抽出することができます。 - 私たちのプラットフォームは英語とドイツ語の両方で動作しますので、テキストは英語またはドイツ語のいずれかである可能性が常にあります。このシナリオにはどのように対応できますか。ありがとうございました。
コード:
private final String PCG_MODEL = "edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz";
private final TokenizerFactory<CoreLabel> tokenizerFactory = PTBTokenizer.factory(new CoreLabelTokenFactory(), "invertible=true");
public void testParser() {
LexicalizedParser lp = LexicalizedParser.loadModel(PCG_MODEL);
String sent="Complete Howto guide to install EC2 Linux server in Amazon Web services cloud.";
Tree parse;
parse = lp.parse(sent);
List taggedWords = parse.taggedYield();
System.out.println(taggedWords);
}
上記の例は動作しますが、あなたは私が英語のデータをロードしています見ることができますように。ありがとうございました。
ここで参照してください - http://nlp.stanford.edu/software/pos-tagger-faq.shtml –
@SrikanthA:ポイント-24から、ありがとう、私は理解していること言語が間違っている場合、代替メカニズムがあります。最初の問題についての考え方。ありがとうございました。 –