データフレームを長さに応じて比較的偶数のチャンクに分割する

提供されたデータフレームを必要なサイズのチャンクに分割する機能を作成する必要があります。たとえば、dataframeに1111行が含まれている場合、400行のチャンクサイズを指定し、サイズが400,400,311の3つの小さいデータフレームを取得できるようにしたいと思います。ジョブを実行する便利な機能はありますか？スライスされたデータフレームを格納して反復する最善の方法は何でしょうか？あなたは以下のように.groupby使用することができますデータフレームを長さに応じて比較的偶数のチャンクに分割する

例DATAFRAME

import numpy as np 
import pandas as pd 

test = pd.concat([pd.Series(np.random.rand(1111)), pd.Series(np.random.rand(1111))], axis = 1)

出典

2015-10-27 YKY

あなただけのインデックスは 'test.index [:: 400]'使用の範囲を取得し、DFスライスするためにこれを使用することができます：[秒= test.iloc 400：最初の '= test.ilocの[400]： 800] 3番目= test.iloc [800] ' – EdChum

50kを超える50個のファイルを持っているので、ループ内にインデックスを追加してdf.groupby（）を使用する必要があると思います – YKY

[' sklearn train_test_split']（http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html） – EdChum

。

for g, df in test.groupby(np.arange(len(test)) // 400): 
    print(df.shape) 
# (400, 2) 
# (400, 2) 
# (311, 2)

出典

2015-10-27 12:31:35 sinhrks

私はすでにまったく同じことをした関数を書いています。しかし、それは大きくて醜いです。これは華麗でエレガントなソリューションです。ありがとう。 – YKY

これは甘いです。ありがとうございます – roopalgarg

visionary ....クール –

データフレームを長さに応じて比較的偶数のチャンクに分割する

答えて

関連する問題