2016-10-26 11 views
1

"data.csv"というCSVファイルが1つあります。それは私が時間Tsklearnとpandasを使用して1つのCSVファイルに複数回回帰

Iの7つの異なるインスタンスに対応する私のファイル内の7つのデータエントリを持つ(A、B、C)の各タプルについて5列T、A、B、C及びD

を有しますscikit-learnライブラリを使用して、次のインスタンスのデータDを予測するために、時系列Tにわたって各タプル(A、B、C)に対して線形回帰を実行したい。データを選択して回帰する最も効率的な方法は何ですか?

CSVファイルのサイズは3.2GBですが、私は4GBのRAMしか持っていません。私は一度に完全なファイルを読み込もうとしましたが、私のマシンは対処できません:P

私はファイルを処理するのにpandas、回帰はsklearnです。回帰モデルの場合

+0

http://scikit-learn.org/stable/modules/scaling_strategies.html – blacksite

答えて

1

、私は(SGDRegressorを示唆している):http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html あなたはデータの小さな部分をロードし、partial_fitで訓練することができます:それは本当に問題に依存機能については

from sklearn.linear_model import SGDRegressor 
model = SGDRegressor() 
model.partial_fit(features, label) 

を。現在のタイムステップで値(A、B、C)を使用するか、サイズNの時間ウィンドウ内のすべての過去の値(A、B、C)を使用することができます。また、前のタイムステップ特徴として。

回帰以外にも、この種の問題について隠れマルコフモデル(HMM)またはリカレントニューラルネットワーク(RNN)を見たいと思うでしょう。

関連する問題