2017-06-29 3 views
0

私は小さな経験で機械学習をするのには全く新しいですし、いくつかのプロジェクトを行いました。教師付き機械学習プロジェクトのターゲット変数を作成する方法

今私は保険に関連するプロジェクトを持っています。だから私はクライアントについてのすべての情報を得るためにマージするクライアントに関するデータベースを持っており、私はその請求のために1つのデータベースを持っています。私はランクに基づいてクライアントの危険性を特定するモデルを構築する必要があります。

私の質問:どのようにリスクが高いかに基づいてクライアントをランク付けするターゲット変数をビルドする必要があります。私はそれを行うためのさまざまな戦略を持つことができますが、私は次のように対処する方法について混乱しています: - クラスタリングなどのランクを構築する前に特定のタイプの分析を行うか、プロジェクトプロバイダーのビジョンを示します。 - 請求データベースでいくつかの変数を使用してランクを構築する場合は、後でどのように対処しますか。言い換えれば、目標変数との相関を避けるために、トレーニング用の最終データセットからそれらを削除しなければなりません。あるいは、それらを別の方法で扱い、それらを保持することができます。 - 私がそれらを保持するならば、それがカテゴリ変数か連続変数かに応じて、特別な治療法がありますか?

答えて

0

すべての機械学習プロジェクトの出発点はEDAです。最初に、悪い主張をどのくらい頻繁に取得するか、何人が取得するかなど、いくつかの機能を作成します。次に、いくつかのEDAを実行して、より便利な機能を見つけます。第二に、問題は分類のように見えます。クラスタリングは通常、評価するのが難しいです。

関連する問題