2009-10-31 10 views
6

名前かかわらず、私は、このデータは、MySQLデータベースに現在ある、と私(ほとんど)は、各選手に別々のレコードを持っているテキストの例の非常に短いバーストLingPipeまたはNLTKを使用して名前と場所を抽出する必要がありますか?

 
"cardinals vs jays in toronto" 
" Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" 
"jenson button - pole position, brawn-mercedes - monaco". 

から名前と場所を抽出するために探しています時々間違って綴られることがあります。

私はアスリートと場所を抽出したいと思います。 私は通常PHPで作業しますが、エンティティ抽出用のライブラリを見つけることができませんでした(将来はNLPMLに深く入りたいかもしれません)。

私が見つけたことから、LingPipeNLTKが最も推奨されるようですが、どちらかが本当に目的に合っているのか、それ以外のものが良いのか分かりません。

私はJavaやPythonでプログラミングしていませんので、新しい言語の学習を始める前に、私はどのようなルートを従わせるべきかアドバイスを得ることを望んでいます。

+0

"...各アスリートのための別のテーブル..."多分あなたは各アスリートのための_record_を意味するでしょうか? (そうでなければひどいテーブルがたくさんある...) – mjv

+0

ええ!言語/モジュールは、私が各アスリートのために別々のテーブルを持っていれば、私の問題の中で最も少なくなります!それを指摘してくれてありがとう。 – pedalpete

答えて

4

説明しているのはnamed entity recognitionです。だからまだ見ていないのであれば、他のquestionsをこのトピックに関してチェックすることをお勧めします。 Thisは私にとって最も有用な答えのようです。

NLTKまたはLingPipeがこのタスクに最も適しているかどうかについては、実際にはコメントできませんが、Javaで書かれたその他のリソースがかなりあるようです。

NLTKを使う利点の1つは、Pythonが言語として非常にアクセス可能であることです。もう1つの利点は、NLTK book(無料で利用可能)がPythonとNLTKの両方を同時に紹介することです。これはあなたにとって有益でしょう。

関連する問題