2012-04-27 15 views
3

大きすぎる行列を使用して大量のデータフィッティングを行い、どのツール/ライブラリを調べるとすればよいでしょうか?具体的には、通常php + mysqlを使用しているWebサイトからデータを実行していた場合、妥当な時間内に大規模な行列演算を実行できるオフラインプロセスを提案するにはどうすればよいですか?大規模な機械によるウェブデータの学習

"可能な答えは、これらの分散マトリックスアルゴリズムでこの言語を使用して、多くのマシンで削減マップを作成する"のようなものかもしれません。私はPHPがこれのための最良の言語ではないと思うので、フローはデータベースからデータを読み込み、学習し、PHPを後で使用できる形式で保存します。サイトの他の部分はPHPで構築されているため)。

これが適切な場所であるかどうかはわかりません(SEを学んでいるマシンでそれを聞いたことがありますが、それはベータ版から外れていません)。

+1

マシンラーニングがCross Validatedでマージされました。 –

答えて

3

大量のデータを処理する場合は、多くのことを行う必要があります。処理ウェブ規模データの 一つの方法は、/ Mapを使用削減し、多分あなたは

  • ユーザーとアイテムベースの推薦
  • K-

    • 協調フィルタリングを含むスケーラブルな機械学習パッケージですApache Mahoutで見ることができることです手段、ファジーK平均クラスタリング
    • そしてもっと多く。

    具体的には、Wekaのようないくつかのオープンソースプロジェクトで利用できますが、配布ジョブを実行するにはコードの移行/作成が必要な場合があります。

    希望はあなたにアイデアを与えます。

  • +0

    ありがとう、非常に面白いもの、私はそれを調べます。 – hackartist

    +0

    面白そうに見えますか? –

    2

    機械学習は幅広い分野であり、多くの異なるものに使用することができます(教師付き予測モデリングや教師なしデータの探索など)。達成したいものと、データの性質と大きさに応じて、出力するモデルの品質と大きなトレーニングセットを活用するスケーラビリティと速度とメモリ消費の両方で興味深いスケーラブルなアルゴリズムを見つけることができます予測時間は一般的には答えられない難しい問題です。一部のアルゴリズムは、オンラインである(すなわち、すべてのデータセットを一度にロードする必要なしに段階的に学習する)ため、スケーラビリティがあり、並列で実行できるサブタスクに分けることができるためスケーラブルです。それはあなたが達成しようとしているものと過去に収集/注釈したデータの種類に依存します。

    例えば、テキスト分類のために、良好な特徴を有するロジスティック回帰(TF-IDF正規化、オプションとしてバイグラムおよび任意にchi2フィーチャ選択)のような単純な線形モデルは、非常に大きなデータセット(数百万のドキュメント)クラスタ上の任意の種類のクラスタ並列化。そのようなスケーラブルな分類モデルを構築するためのliblinearとvowpal wabbitを見てみましょう。

    関連する問題