0
私は5GB以上のデータセットを持っています。確率的勾配降下型の方法で、このデータをチャンクでモデル化する方法はありますか?言い換えれば、それぞれ1 GBの5つのチャンクでセットを分割し、次にパラメータを調整します。Pythonで大量のデータをマイニングする
私はこれをPython環境で実行したいと考えています。
私は5GB以上のデータセットを持っています。確率的勾配降下型の方法で、このデータをチャンクでモデル化する方法はありますか?言い換えれば、それぞれ1 GBの5つのチャンクでセットを分割し、次にパラメータを調整します。Pythonで大量のデータをマイニングする
私はこれをPython環境で実行したいと考えています。
はい、できます。 scikit学習のSGDはpartial fit
です。あなたのチャンク
partial_fit(X, y[, classes, sample_weight]) Fit linear model with Stochastic Gradient Descent.
とそれを使うあなたがこれを読んでいましたか? http://stackoverflow.com/questions/17710748/process-large-data-in-python –
上記のリンクは、質問を行うことはほとんどありません。これは機械学習の問題であり、データ処理の問題ではありません。 – Merlin
質問はあまりにもボードではありません。 Machine Learning algoには、データをチャンクするための基礎となるプロセスがあります。一部のScikit Learn algoは部分的なデータセットで動作するように「最近」実装されていますが、他のものはそうではありません。他の言語やパッケージでの同じ種類のalgo実装の一部は、部分的なものを取ることができます。だから、どのPythonパッケージがpartialsを受け入れるかは、chunkingを使って並列にコードを実行できるかどうかを判断する鍵です。 – Merlin