私はメモリが少ない大規模なデータセットを扱っており、データフレームをDaskに導入しました。 Daskがメモリ全体にデータセットをロードしないというドキュメントから理解したこと。代わりに、オンデマンドでディスクからレコードをフェッチする複数のスレッドを作成しました。だから私はバラのサイズ= 500を持っているケラスモデル、それは訓練時にメモリ内の500レコードを持つ必要があります。しかし、私は訓練を開始します。それは永遠にかかります。私は何か間違ったことをしているかもしれません。トレーニングデータのdaskデータフレームで鍛えるケラスモデル
形状:* 1290 1000000
import glob
import dask.dataframe
paths_train = glob.glob(r'x_train_d_final*.csv')
X_train_d = dd.read_csv('.../x_train_d_final0.csv')
Y_train1 = keras.utils.to_categorical(Y_train.iloc[,1], num_classes)
batch_size = 500
num_classes = 2
epochs = 5
model = Sequential()
model.add(Dense(645, activation='sigmoid', input_shape=(1290,),kernel_initializer='glorot_normal'))
#model.add(Dense(20, activation='sigmoid',kernel_initializer='glorot_normal'))
model.add(Dense(num_classes, activation='sigmoid'))
model.compile(loss='binary_crossentropy',
optimizer=Adam(decay=0),
metrics=['accuracy'])
history = model.fit(X_train_d.to_records(), Y_train,
batch_size=batch_size,
epochs=epochs,
verbose=1,
class_weight = {0:1,1:6.5},
shuffle=False)
あなたはcsvファイルをアップロードできますか? – sera
私は開いているプロジェクトに取り組んでいないので、これはできません。 – user3085459
は、csvファイルを記述する。行数および列数。 – sera