2017-03-09 6 views
0

回帰モデルを使用して、120個の属性のセットから数値を予測しています。これらの属性のうち7つはカテゴリ別ですが、最大のカテゴリは約90,000の固有値を持ちます。私はおよそ100万行のデータを訓練しています。カテゴリ属性を使用したAmazonマシンの学習 - 制限

しかし、データソースの要約のカテゴリ属性を見ると、最大5000の一意の値が表示されます。これは、AWS Machine Learningが私のモデルの精度に影響を与えている制限ですか、それともサマリー表示の制限にすぎませんか?

AWS Categorical Attribute Summary

また、私は最も頻繁カテゴリブランクが最も一般的な値として示されている結果を強調しています。 (これは、引用符を含むCSV、および有効な値のために発生する可能性があります)AWS MLはカテゴリ要素の空白のエントリを無視しますか?または、共通の「空白」値が予測を歪ませないように、UUID /ランダムな文字列を使用して欠落したカテゴリ値を設定する必要があります。

一部のMLモデルでは、新しい(以前はトレーニングでは見えなかった)カテゴリ値が予測のために入力されたときにスペアニューロンを保持していることを理解します。これはAWS Machine Learningのケースですか?

私はMLの初心者ですので、私の質問がばかげている、または私の方法/仮定が間違っている場合は申し訳ありません。私は尋ねる前にAWSドキュメントをスキャンしました。

ありがとうございました。

+0

あなたは多数の属性を使用していますので、属性選択の科学的推論がなく、*属性選択なしで学習するためのすべての属性を追加しました**。いくつかの属性は、**学習に**有意義であるか、**逆学習**を引き起こしたり、関連する属性を捕捉できなかったりする可能性があります。私は相関係数が0.5程度と非常に低いことを見ることができます。ネットワークを改善するためにPCAを使用し、スペアニューロンはありません。**すべての入力データは、訓練された出力**に収束します。 – SACn

答えて

1

これは通常、非常に多くのカテゴリ値を使用することを意味しませんし、上位の値のみが使用され、他の小さなカテゴリはあまり予測力がありません。

これらのカテゴリは、ターゲットとの相関が非常に高く、疑わしいものです。しかしモデルがそれらとうまくいっているなら、私はあまり心配しないでしょう。モデルを作成せずにモデルを構築して、違いがあるかどうかを確認することもできますが、機能を選択するのはあまり難しくありません。

+0

ありがとうございます。はい、カテゴリ属性を、それらのカテゴリを一意に「記述する」数値属性で置き換えたかったのです。私は2つの出力を比較します。 AWS MLには、最も有益な5000カテゴリの値を使用するという厳しい制限があるかどうかを知っていますか?それとも、機械学習が一般的にどのように機能するかについて話していますか?多くのカテゴリ値。 – Sprooose

関連する問題