2017-02-16 3 views
0

私はを使用しています(LLE)メソッドは次元リダクションのためにScikitで学習します。私が見つけることができる唯一の例はScikit-learnドキュメントherehereに属していますが、メソッドのパラメータをどのように選ぶべきかはわかりません。特に、データポイントの次元またはサンプル数と近傍数(n_neighbors)とコンポーネント数(n_components)の間には何らかの関係がありますか? Scikitで学習したすべての例は、n_components = 2を使用しています。これはいつものケースですか?最後に、チューニングに重要な他のパラメータがあるか、または残りのパラメータのデフォルト設定を使用する必要がありますか?次元リダクションのためのScikit-learnにおけるローカル線形埋め込み(LLE)メソッドのパラメータの設定

答えて

0

GridSearch(Scikit-learn)を使用して最適な値を選択できます。

+0

ありがとうございました。実際には、特定の問題に対して最良の結果をもたらす値を見つけるために他のメソッドに適用できるGridSeachを適用して、最良の選択肢を探すのではなく、そのようなパラメータ間に存在する関係に興味があります。 – Miranda

0

データポイントの寸法やサンプル数と近隣の数(n_neighbors)と部品の数(n_components)との間の関係がありますか?

一般的に言えば、関連していません。 n_neighborsは、サンプル間の距離によって決まることがよくあります。特に、サンプルのクラスを知っている場合は、n_neighborsを各クラスのサンプル数よりも少し大きく設定する方がよいでしょう。 n_components、すなわち縮小次元サイズは、元の次元のデータの冗長性によって決定される。特定のデータ分布と自分の要求に基づいて、投影に適した空間次元を選択することができます。

n_components=2は、元の高次元空間を2次元空間にマッピングすることです。それは実際には特殊なケースです。

チューニングに重要なパラメータはありますか、それとも残りのパラメータにはデフォルト設定を使用する必要がありますか?

ここには、いくつか注意しなければならないパラメータがあります。

  • regthe original LLE paperでは使用されていません。それを使用したくない場合は、単純にゼロに設定してください。ただし、デフォルト値のregは、1e-3です。これは非常に小さい値です。
  • eigen_solver。データサイズが小さい場合は、正確にはdenseを使用することをお勧めします。あなたはこれについてより多くの研究をすることができます。
  • max_itermax_iterのデフォルト値は100だけです多くの場合、結果は収束しません。結果が安定しない場合は、より大きいインターガーを選択してください。
関連する問題