回帰モデルを使用して、120個の属性のセットから数値を予測しています。これらの属性のうち7つはカテゴリ別ですが、最大のカテゴリは約90,000の固有値を持ちます。私はおよそ100万行のデータを訓練しています。カテゴリ属性を使用したAmazonマシンの学習 - 制限
しかし、データソースの要約のカテゴリ属性を見ると、最大5000の一意の値が表示されます。これは、AWS Machine Learningが私のモデルの精度に影響を与えている制限ですか、それともサマリー表示の制限にすぎませんか?
また、私は最も頻繁カテゴリブランクが最も一般的な値として示されている結果を強調しています。 (これは、引用符を含むCSV、および有効な値のために発生する可能性があります)AWS MLはカテゴリ要素の空白のエントリを無視しますか?または、共通の「空白」値が予測を歪ませないように、UUID /ランダムな文字列を使用して欠落したカテゴリ値を設定する必要があります。
一部のMLモデルでは、新しい(以前はトレーニングでは見えなかった)カテゴリ値が予測のために入力されたときにスペアニューロンを保持していることを理解します。これはAWS Machine Learningのケースですか?
私はMLの初心者ですので、私の質問がばかげている、または私の方法/仮定が間違っている場合は申し訳ありません。私は尋ねる前にAWSドキュメントをスキャンしました。
ありがとうございました。
あなたは多数の属性を使用していますので、属性選択の科学的推論がなく、*属性選択なしで学習するためのすべての属性を追加しました**。いくつかの属性は、**学習に**有意義であるか、**逆学習**を引き起こしたり、関連する属性を捕捉できなかったりする可能性があります。私は相関係数が0.5程度と非常に低いことを見ることができます。ネットワークを改善するためにPCAを使用し、スペアニューロンはありません。**すべての入力データは、訓練された出力**に収束します。 – SACn