Pythonで大量のデータをマイニングする

私は5GB以上のデータセットを持っています。確率的勾配降下型の方法で、このデータをチャンクでモデル化する方法はありますか？言い換えれば、それぞれ1 GBの5つのチャンクでセットを分割し、次にパラメータを調整します。Pythonで大量のデータをマイニングする

私はこれをPython環境で実行したいと考えています。

出典

2016-07-08 Arslán

とそれを使うあなたがこれを読んでいましたか？ http://stackoverflow.com/questions/17710748/process-large-data-in-python –

上記のリンクは、質問を行うことはほとんどありません。これは機械学習の問題であり、データ処理の問題ではありません。 – Merlin

質問はあまりにもボードではありません。 Machine Learning algoには、データをチャンクするための基礎となるプロセスがあります。一部のScikit Learn algoは部分的なデータセットで動作するように「最近」実装されていますが、他のものはそうではありません。他の言語やパッケージでの同じ種類のalgo実装の一部は、部分的なものを取ることができます。だから、どのPythonパッケージがpartialsを受け入れるかは、chunkingを使って並列にコードを実行できるかどうかを判断する鍵です。 – Merlin

はい、できます。 scikit学習のSGDはpartial fitです。あなたのチャンク

http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier

partial_fit(X, y[, classes, sample_weight]) Fit linear model with Stochastic Gradient Descent.

出典

2016-07-08 21:55:58 Merlin

Pythonで大量のデータをマイニングする

答えて

関連する問題