-1

私はデータ科学の世界に慣れていませんし、MLの成果に関する概念を理解しようとしています。私はscikit - clusteringの例を使い始めました。 scikitライブラリを使用することはどこにでも書かれています。しかし、すべての例は、数値データの準備ができていると仮定しています。クラスタリングScikit - ビジネスデータを機械学習入力データに変換する

ここで、データ科学者がビジネスデータを機械学習データに変換する方法について説明します。ちょうど例を与えるために、ここで

Customer Data

Order Data

..私は用意してきた顧客と販売データである最初の写真は、いくつかのパラメータは、整数、文字列やブール値を持つ顧客データを示しています

2番目の画像は、それらの顧客の過去の売上データを示しています。

このような実際のビジネスデータは、機械学習アルゴリズムにどのように変換されますか?各データをアルゴリズムが理解できる共通の要素に変換するにはどうすればよいですか?

おかげK

答えて

0

Technicaly は、ワンホットエンコーディング、標準化、およびスキュー属性のログ・スペースに入るように多くの方法があります。

しかし、問題は技術的な性質のではなく、です。

方法を見つけることは、あなたの問題のためによく本当にを動作するものを見つける必要が十分ではありません、しかし。これは通常、問題ごとに大きく異なります。 「ターンキーソリューション」はありません。

+0

Thanks @ Antony-Mousseこれらのテクニックを読める場所はありますか?いくつかの例がありますか?私はこれが複雑な話題であることを理解しており、これを行うにはいくつかのエキスパートが必要です。 – Kiran

0

@ Anony-Mousseによるコメントだけで、ウォン/ロスト列を値1、0に変換できます(Wonの場合は1、Lostの場合は0など)。 Y列の場合、列に3つの一意の値があるとします。A[1, 0, 0]B[0, 1, 0]Cから[0, 0, 1]に変換することができます(ワンホットエンコーディングと呼ばれます)。 Z列と同じに、TRUE列を1FALSE0(またはそれぞれTrueまたはFalse)に変換できます。

2つのテーブルまたはExcelファイルを結合するには、pandasという追加のライブラリを使用できます。これにより、2つのデータフレームを結合することができます。 df1.merge(df2, on='CustID', how='left')。これで、あなたのフィーチャーセットをscikitに適切に学習させることができます。

+0

ありがとう!私が与えた例は無作為なものでした。実際のバスシステムでは、多くのそのような機能がありますが、それはscikitに送られる前に翻訳される必要があります。私はこれらのトリックを学ぶことができる出発点がありますか? – Kiran

+0

私はそれが本とコードのドキュメントの組み合わせの組み合わせだと言います。私の好きな機械学習の本は、司教によるパターン認識と機械学習です。読んだら、基本的な機械学習の用語を知ることができ、Googleやドキュメント上で検索することができます。ドキュメンテーションについては、ワンホットエンコーディングをしたい場合は、scikit learnのページhttp://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.htmlを直接参照してください。良い例の多くは、人々が機械学習の問題に取り組むカグルのようなサイトにもあります:) – titipata

関連する問題