2017-10-26 5 views
0

現在、私は与えられたテキストの位置情報を抽出し、最終的に所属する国を取得するというシナリオを持っています。例えばNLTK - 位置情報の抽出とその所有者国の特定

I am studying in New York. 

私は場所としてニューヨークをつかみ、何とかその所有者の国を見つけたいです。

スタンフォードNERパッケージでNLTKを使用しています。私は正常に位置を抽出することができます。そして、どうすればその国を得ることができますか(コーパスか何かを使って)?私は地理的なサービスによってそれを得ることができると信じています。しかし、Webサービスや固定ロケーションテーブルなしで達成する方が良いでしょう。

いずれかのアイデアを歓迎します!ありがとう。

答えて

0
  1. NERモデルを地理データのために訓練して、必要なだけ情報を識別することができます。 しかし、スペルバリエーション、エイリアスなどの制限があります。 これはNLTKで簡単に実行できます。

  2. 地理NERデータに特化しNLTKベースgithubのプロジェクトがあります:https://github.com/ushahidi/geograpy また、ファジー文字列の一致をサポートしており、国のルックアップのようなもの。

  3. 国別検索の場合は、#2で説明したプロジェクトに依存するか、より広範な対象範囲ではGoogle places apisを使用して抽出されたエンティティを検索し、候補から最も可能性の高い結果を選択します。その国は、Googleのapiの結果によって提供される行政上の検索結果に表示されます。例:San Francisco - > California - > USA

関連する問題