2016-08-28 10 views
-2

ヘッダー付きのデータセットが与えられているとします。 id、query、product_title、product_description、brand、color、relevance。特徴抽出

idと関連性は数値形式のみで、その他はすべて単語と数値で構成されています。関連性は、特定のクエリに関する製品の関連性またはランキングです。例えば、 - query = "abc"とproduct_title = "product_x" - > relevance = "2.3"の場合

トレーニングセットでは、これらのフィールドはすべて埋め込まれていますが、テストセットでは、関連性は示されていません。いくつかの機械学習アルゴリズムを使用しています。私はこのような問題でどの機能を使用すべきかを判断する上で問題がありますか?たとえば、TF-IDFをここで使用する必要があります。このようなデータセットから他にどんな機能を得ることができますか?

また、あなたが私に素晴らしい本物の「特徴抽出」トピックのための本/リソースを参照できる場合は、私はいつもこの段階で困っているように感じます。前もって感謝します。

+0

提供されている関連性の値は信頼できるものですか?たとえば、検索エンジンのスコアラー(ハンドスコアリングリストや結果ベースのフィードバックループとは対照的に)によって生成された場合、あなたのMLワークはTF/IDFの近​​似値を発見することになります... –

答えて

1

フィーチャの抽出は解決されている問題と既存のデータに直接関連する段階であるため、必要な回答を得る本はないと思います。唯一のヒントは、あなたが持っているデータ過去に私はあなたのものと似た問題で働きました。私が使ったいくつかの機能は次のとおりです:

  • プロダクトタイトルの質問語の数。
  • 製品説明のクエリ語数。
  • N-igramはカウント
  • TF-IDF
  • コサイン類似度

すべてこの後、標準辞書正規化ステミング、上部(または下部)の場合に、すべてのテキストを取るようないくつかの前処理。

また、これはプロブルマンとデータに依存し、直接回答を見つけることができません。質問を投稿するのと同じように:「私は製品販売システムを開発する必要があります。 " 。プログラミングとソフトウェアエンジニアリングに関する書籍はありますが、特定のシステムの開発に関する書籍はありません。一般的な知識と創造性を使用してソリューションを工夫する必要があります。

関連する問題