2011-09-15 3 views
0

私はこのプロジェクトに取り組んでいる私たちは、このようなさまざまなカテゴリにテキストを自動的に割り当てる方法は?

美容 活動 ショッピングなど、いくつかのカテゴリを持っている

カテゴリーがタグ付けされている、例えばタグのいくつかは、次のとおりです。

Beauty => Haircut, spa, manicure, personal trainer 
Activities => personal trainer, biking 
Shopping => Jewelery, Shirts, Socks 

タグにはカテゴリとの関連性を示す順序があります。例えば、ヘアカットは、ヘアカットという言葉のテキストがビューティ関連である可能性が最も高いため、美容で最初に来ます。

"パーソナルトレーナー"タグは複数のカテゴリに属しているので、テキストにパーソナルトレーナーが含まれている場合は、ビューティーまたはアクティビティに関連している可能性があります。

また、各タグがテキスト内で何回見つかったかを記録するので、各タグには見つかった値があります。

新しいテキストを処理するときに、その中のすべてのタグを検索し、指定されたテキストに何回出現したかを確認します。サンプルテキストの結果は、次のようになります。

Haircut => 4 
personal trainer => 1 
manicure => 1 
spa => 0 

これを見ると、テキストはBeautyに属しているはずです。 1-与えられた入力を持ち、カテゴリが関連付けられているタグの配列を持つことによって、このテキストが属するカテゴリをプログラムで決定するにはどうすればよいですか? これは良い考えですか?これを行うよりエレガントな方法がありますか?

2これを行うには良い方法ですか、より良いアルゴリズムがありますか?私はルーネンのようなものか、もっとインテリジェントなアルゴリズムがこれを扱うときに出現するかもしれないと考えていました。

+0

本当のことは、私に情報検索を思い出させることです(これはgoogleと同じです)。情報検索には多くのアルゴリズムがありますが、PHPで書かれたものもあります。だから初めからそれを発見する必要はありません。 – Melsi

答えて

1

クラスを定義できる場合、Naive Bayesに基づくメソッドがその仕事をすることができます。それはよく使われる分類子の1つです。

プログラムによって自動的に定義されたクラスが必要な場合は、今はうまく動作しません。

+0

Bayesは私が探していたキーワードでした。この驚くべき記事を見つけました。http://www.ibm.com/developerworks/web/library/wa-bayes1/ – Yasser1984

関連する問題