2012-05-02 12 views
1

名前エンティティ認識にOpenNLPモデルを使用しています。OpenNLP名前日時のエンティティ認識モデル

私は単語を識別したい文章を渡しています。 Open NLPにはString []変数が必要なため、文字列をスペースで区切られた単語に分割します。

私は日付を認識するための問題に直面しています。たとえば、文字列に日付が含まれている場合:2012年1月7日、文字列を単語に分割すると、「7」、「Jan」および「2012」は3つの異なる単語として区切られます。彼らは日付として認識されますが、3つの異なるトークンはそれ以上の処理のために私にとって意味をなさない。 "2012年1月2日"が1つの文字列として扱われるように、文字列を分割することはできますか... 2012年1月7日は1つの形式です...時には1月7,2012です。日付はまた私が入力した時刻形式を認識します:12:30 pmのように

NER時間モデルは時刻を午後12:18または09:52:52に認識しません。どのような時間形式が受け入れられますか?

答えて

1

Apache OpenNLPの日時モデルは統計的であり、コーパスから訓練されています。それは、フォーマットからだけでなく、文脈からの日時を認識します。

特定のニーズがある場合は、独自のコーパスを作成し、train独自のOpenNLP名 Finderモデルを作成できます。

OpenNLP名前Finderは、トレーニング中のカスタマイズもサポートしています。たぶん、コーパスを作成し、さらにregex based featuresを追加すると、結果を改善できます。

関連する問題