14

私はに数週間前にこれを尋ねましたが、私は質問を正しくしませんでした。ですから、私はここで詳細を質問しています。私はよりAI指向の答えを得たいと思います。製品リストを分類するアルゴリズムはありますか? Take 2

私は多かれ少なかれ同じ製品を表すリストを持っています。たとえば、以下のリストでは、すべてSeagateハードドライブです。

  1. シーゲイトハードドライブ500Go
  2. シーゲイトハードドライブ120Goラップトップ
  3. ため
  4. のSeagateのBarracuda 7200.12 ST3500418AS 500ギガバイト7200 RPM SATA 3.0GB/sのハードドライブ
  5. 新規およびシーゲイト
  6. からシニー500Goハードドライブ
  7. Seagate Barracuda 7200.12
  8. Seagate FreeAgent Desk 500GB外付けハードドライブシルバー7200RPM USB2.0小売
  9. GE Spacemaker Laudry
  10. のMazda3 2010
  11. Mazda3の人間のために2009 2.3L

、ハードドライブ3と5は同じです。もう少し進んで、製品1,3,4,5が同じで、他のカテゴリに製品2と6を入れたとします。

私の前の質問で、誰かが私にフィーチャ抽出。あらかじめ定義された説明(すべてのハードドライブ)の小さなデータセットがある場合はうまく機能しますが、他のすべての種類の説明はどうでしょうか?私のアプリケーションで直面する可能性のあるすべての記述に対して正規表現ベースのフィーチャ抽出プログラムを書き始めることは望ましくない。 これを達成するのに役立つ機械学習アルゴリズムはありますか?私が得ることのできる記述の範囲は非常に広く、1行目、それは冷蔵庫、そして次の行、ハードドライブになります。ニューラルネットワークの経路を取るべきですか?私のインプットは何でしょうか?

ありがとうございました!

+1

興味深い質問です。私は次の数ヶ月の間に何かに遭遇するつもりです。 – JoshBerke

答えて

8

Bayesian classificationの方法を見ていきます。それは、製品があなたのクラスの1つに属する確率を示すものとして特定の単語を認識するように分類器を訓練することを含む。たとえば、訓練を受けた後、製品説明に「Seagate」がある場合、それはハードドライブである可能性が99%、「Mazda」には97%の可能性があります。 「新しい」のような言葉はおそらくどのような分類にも寄与しないでしょう。それはあなたが働く方法です。

これは、トレーニングデータがかなり大きくなる前にかなり大量のデータが必要になることがありますが、プロダクション中にパーセンテージを変更し続けるように設定することができます(それは間違って何かを分類した)、それは最終的に非常に効果的になります。

最近ベビーテクニックはかなり使われています。spam-filtering applicationsのように、そこで使われている方法でいくつかの読書をするのは良いことかもしれません。

9

clusteringclassificationの両方をご覧ください。あなたのカテゴリは自由に終わっているように見えます。したがって、クラスタリングが問題をよりよく満たすかもしれないことを示唆しています。 入力の表現としては、単語と文字を抽出して運を試すことができますn-grams。あなたの類似度は、一般的なnグラム数、またはsomething more sophisticatedです。結果のクラスタには手動でラベルを付ける必要があります。

関連する問題