-1

一般的で、さまざまな状況のさまざまなデータに適したデータ分析のための強力な技術がいくつか存在しますか?最高のデータミン/分類技術

たとえば、新しいデータを分類する必要があります。私はすでにそれが分かっているという分類を持っています。私は(私の思考の例は以下の通りです)しようとする必要があります。

  1. PCA、その後、RandomForestDecisionsを適用しよう。
  2. 次いでようを使用して、すべてのデータにコホネンネットワークを適用し、方法Xでパイソン libにを使用)を介して、最上位列に見つけます。
  3. (MathematicaのにおけるRでこの例、及びこのを参照し、その結果にK-最寄り方法で結果を改善マルコフchainesとSVMを試みる。
  4. 使用このツールキットを使用してデータの異常を見つけ、通常の操作を試みてください逆伝播NNここではなど)または復習ニューラルネットワークはここに似ています。
  5. リニアclassificators(私はこのを意味する)の上(このなど)遺伝的アルゴリズムを兼ね備えています。

たとえば、私はxgboost *アルゴリズムが多くの機械学習のクエストと競技に勝ったことを知りました。

データマイニングツールとアルゴリズムの現在の量でInfinityをダイビングして、正しい結果だけでなく実行可能な結果にも強くアプローチするような気がします。リンク付きのML原理の構造的ビジョンをありがとう)

答えて

1

これらは有効な教師なし学習であるかどうか尋ねていますか?もしそうなら、はい、あなたはそれらの5つすべてを試して、どれがあなたに最高の結果をもたらすかを見ることができます。実際に使用するメソッドはアプリケーションによって異なります。

PCAはデータの次元/フィーチャの数を減らします。これは、通常、最近隣(Eigenfacesなど)などの教師なし学習メソッドの前処理ステップですが、ランダムフォレストや他の決定木/詰め込みメソッドとともに使用して、コードをより速く実行し、分散を減らすことができます。

SVM(http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)、QDA、LDA、ロジスティック回帰(おそらくカーネル付き)は、あなたが試すことができる多くの方法の中にあります。

物事を単純にするために、1つの隠れたレイヤーでニューラルネットワークを訓練し、それがどうなるかを見てみることもできます。あなたの出力レイヤーが大き過ぎず(〜10)、妥当な隠れレイヤーサイズ(〜200)を選択し、入力レイヤーサイズ(〜60000)が比較的大きい場合、そのようなネットワークの基本的な実装は、約97%であった。

しかし、もう一度、それはあなたが何をしたいかによって異なります。