ヘッダー付きのデータセットが与えられているとします。 id、query、product_title、product_description、brand、color、relevance。特徴抽出
idと関連性は数値形式のみで、その他はすべて単語と数値で構成されています。関連性は、特定のクエリに関する製品の関連性またはランキングです。例えば、 - query = "abc"とproduct_title = "product_x" - > relevance = "2.3"の場合
トレーニングセットでは、これらのフィールドはすべて埋め込まれていますが、テストセットでは、関連性は示されていません。いくつかの機械学習アルゴリズムを使用しています。私はこのような問題でどの機能を使用すべきかを判断する上で問題がありますか?たとえば、TF-IDFをここで使用する必要があります。このようなデータセットから他にどんな機能を得ることができますか?
また、あなたが私に素晴らしい本物の「特徴抽出」トピックのための本/リソースを参照できる場合は、私はいつもこの段階で困っているように感じます。前もって感謝します。
提供されている関連性の値は信頼できるものですか?たとえば、検索エンジンのスコアラー(ハンドスコアリングリストや結果ベースのフィードバックループとは対照的に)によって生成された場合、あなたのMLワークはTF/IDFの近似値を発見することになります... –