2016-05-18 6 views
2

大文字のテキストからエンティティを抽出する方法。大文字のテキストの名前付きエンティティの認識

私が使う - http://corenlp.run/

テストデータで - 私は、TOMは、ロンドンに住んでいる知っています。

LONDON - 場所 TOM - テストデータで

を確認していません 関係を確認していません - 私はトムはロンドンに住んでいる知っています。Tom - Person ロンドン - 場所 関係が正しく識別されました。

これを改善するにはどうすればよいですか?

答えて

3

私はまったく同じ問題を抱えています。このための最善の方法は、独自の辞書を使用することです。スタンフォードNERを使用するよりはるかに高速です。

ここにいくつかの情報源があります。

http://deron.meranda.us/data/census-dist-female-first.txt (4275 entries) 
http://deron.meranda.us/data/census-dist-male-first.txt (1219 entries) 
http://deron.meranda.us/data/census-derived-all-first.txt 
0

ケースを無視したケースレスモデルを試してみることができます。しかし、最良の結果を得るためには、すべて大文字か小文字の文章でのみこれを使用してください。

英語版モデルjarでは、caselessモデルを使用できます。あなたはここでそのモデルのjarファイルをダウンロードすることができます:http://stanfordnlp.github.io/CoreNLP/download.html

をあなたはケースレスモデルを使用するには、「ner.model」パラメータを設定する必要があります。

Properties props = new Properties(); 
props.setProperty("ner.model", "edu/stanford/nlp/models/ner/english.all.3class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.muc.7class.caseless.distsim.crf.ser.gz,edu/stanford/nlp/models/ner/english.conll.4class.caseless.distsim.crf.ser.gz"); 

私はそれが次のNERでクールな新機能かもしれないと思いますシステムは、文がALL-CAPSかすべて小文字かどうかを自動的に検出し、それらの文にはカスレスモデルを使用します。

関連する問題