2016-07-08 8 views
0

私は5GB以上のデータセットを持っています。確率的勾配降下型の方法で、このデータをチャンクでモデル化する方法はありますか?言い換えれば、それぞれ1 GBの5つのチャンクでセットを分割し、次にパラメータを調整します。Pythonで大量のデータをマイニングする

私はこれをPython環境で実行したいと考えています。

+3

とそれを使うあなたがこれを読んでいましたか? http://stackoverflow.com/questions/17710748/process-large-data-in-python –

+0

上記のリンクは、質問を行うことはほとんどありません。これは機械学習の問題であり、データ処理の問題ではありません。 – Merlin

+0

質問はあまりにもボードではありません。 Machine Learning algoには、データをチャンクするための基礎となるプロセスがあります。一部のScikit Learn algoは部分的なデータセットで動作するように「最近」実装されていますが、他のものはそうではありません。他の言語やパッケージでの同じ種類のalgo実装の一部は、部分的なものを取ることができます。だから、どのPythonパッケージがpartialsを受け入れるかは、chunkingを使って並列にコードを実行できるかどうかを判断する鍵です。 – Merlin

答えて

関連する問題