2011-01-21 6 views
1

私は適切な名前(人の名前など)を抽出するためのテキストベースの文書(100,000+)のコーパスがあります。テキストから適切な名前を抽出するためのソフトウェアとテクニックは何ですか?

この目標を達成するのに役立つテクニックやソフトウェアをお勧めしますか?私は、低レベルのテキスト解析には特に興味がありません。認識やランキングのようなより高度なものと同じくらいです。

答えて

1

何かNatural Language Processingのようなものがないと、このようなことは確実に実行できません。いくつかの一般的な問題:また、一般的な単語です

  • 名:John Black

  • 複数の言語と同じ単語の様々な形。

  • 異なるものを示す名前。 Lilyは、人、場所、猫、または花のみの名前になります。

NLPは、周囲の文法構成を使用して、これらのケースの一部を区別することができます。

しかし、あなたが試みることができる簡単な(そして素朴な)手法は、単語の大文字を使用することです。文の途中に大文字の開始文字がある場合は、通常は何らかの名前です。

あなたは、そのような単語が同じ文書内で同じものを参照していると合理的に考えることができます。このような2つの単語は、おそらく名前と姓の組み合わせなどです。

文書の大文字を信頼できない場合は、適切な単語リストを信頼することができます該当する言語の名前。

0

おそらく、それぞれの単語を適切な名前の辞書と比較することをお勧めします。

+0

これは良いアプローチですが、複数の言語がある場合、適切な辞書を作成するのは難しいでしょう。 –

0

すべてのユニークワードのリストを作成してから、辞書に含まれるすべての単語を削除した場合はどうなりますか?

+0

私はユニークな単語のセットを作成するための自動化されたテクニックなしでスケールされないことに恐れています。 –

4

名前付きエンティティの認識をお探しですか? wikipediaの記事をご覧ください。

スタンフォードNLPグループには、GPLライセンスと商用ライセンスの両方を使用できる、すぐに使用できるパッケージhereがあります。

関連する問題