私はこのプロジェクトに取り組んでいる私たちは、このようなさまざまなカテゴリにテキストを自動的に割り当てる方法は?
美容 活動 ショッピングなど、いくつかのカテゴリを持っている
カテゴリーがタグ付けされている、例えばタグのいくつかは、次のとおりです。
Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks
タグにはカテゴリとの関連性を示す順序があります。例えば、ヘアカットは、ヘアカットという言葉のテキストがビューティ関連である可能性が最も高いため、美容で最初に来ます。
"パーソナルトレーナー"タグは複数のカテゴリに属しているので、テキストにパーソナルトレーナーが含まれている場合は、ビューティーまたはアクティビティに関連している可能性があります。
また、各タグがテキスト内で何回見つかったかを記録するので、各タグには見つかった値があります。
新しいテキストを処理するときに、その中のすべてのタグを検索し、指定されたテキストに何回出現したかを確認します。サンプルテキストの結果は、次のようになります。
Haircut => 4
personal trainer => 1
manicure => 1
spa => 0
これを見ると、テキストはBeautyに属しているはずです。 1-与えられた入力を持ち、カテゴリが関連付けられているタグの配列を持つことによって、このテキストが属するカテゴリをプログラムで決定するにはどうすればよいですか? これは良い考えですか?これを行うよりエレガントな方法がありますか?
2これを行うには良い方法ですか、より良いアルゴリズムがありますか?私はルーネンのようなものか、もっとインテリジェントなアルゴリズムがこれを扱うときに出現するかもしれないと考えていました。
本当のことは、私に情報検索を思い出させることです(これはgoogleと同じです)。情報検索には多くのアルゴリズムがありますが、PHPで書かれたものもあります。だから初めからそれを発見する必要はありません。 – Melsi