2016-06-11 2 views
0

スタンフォードNLPコアで作業を始めました。スタンフォードNLP:句読点のエラーID

私の問題は、私のコーパスの文章の多くが期間(完全停止)で終わらないということです。

正直なところ、正規表現で文字列を解析すると問題は解決する可能性がありますが、ある程度の誤差はあります。

スタンフォードNLPが欠落期間を識別できるかどうか不思議です。

答えて

1

edu.stanfordn.nlp.process.DocumentPreprocessorは、段落を文に分割するために使用できますが、適切な句読記号がないとうまくいかないかどうかはわかりません。

コーパスの前処理に使用できる他の多くの文章レベルのトークナイザがあります。NLTKのnltk.tokenize.punkt moduleは大文字/小文字の区別がない場合でも文法トークンを作るアルゴリズムを使用しています。

関連する問題