名前かかわらず、私は、このデータは、MySQLデータベースに現在ある、と私(ほとんど)は、各選手に別々のレコードを持っているテキストの例の非常に短いバーストLingPipeまたはNLTKを使用して名前と場所を抽出する必要がありますか?
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
から名前と場所を抽出するために探しています時々間違って綴られることがあります。
私はアスリートと場所を抽出したいと思います。 私は通常PHPで作業しますが、エンティティ抽出用のライブラリを見つけることができませんでした(将来はNLPとMLに深く入りたいかもしれません)。
私が見つけたことから、LingPipeとNLTKが最も推奨されるようですが、どちらかが本当に目的に合っているのか、それ以外のものが良いのか分かりません。
私はJavaやPythonでプログラミングしていませんので、新しい言語の学習を始める前に、私はどのようなルートを従わせるべきかアドバイスを得ることを望んでいます。
"...各アスリートのための別のテーブル..."多分あなたは各アスリートのための_record_を意味するでしょうか? (そうでなければひどいテーブルがたくさんある...) – mjv
ええ!言語/モジュールは、私が各アスリートのために別々のテーブルを持っていれば、私の問題の中で最も少なくなります!それを指摘してくれてありがとう。 – pedalpete