pandas HDFStoreから特定の列を取得するにはどうすればよいですか?私は、メモリ内で操作するには大きすぎる非常に大きなデータセットで定期的に作業します。私はcsvファイルを繰り返し読み込み、各チャンクをHDFStoreオブジェクトに追加して、データのサブセットを処理したいと考えています。私は、単純なCSVファイルの読み込み、次のコードでHDFStoreにそれをロードしていますpandas.HDFStoreテーブルから列を選択
tmp = pd.HDFStore('test.h5')
chunker = pd.read_csv('cars.csv', iterator=True, chunksize=10, names=['make','model','drop'])
tmp.append('df', pd.concat([chunk for chunk in chunker], ignore_index=True))
そして出力:
In [97]: tmp
Out[97]:
<class 'pandas.io.pytables.HDFStore'>
File path: test.h5
/df frame_table (typ->appendable,nrows->1930,indexers->[index])
私の質問は、私がtmp['df']
から特定の列へのアクセスはどうすればよいのですか?この文書では、select()
メソッドとTerm
オブジェクトのいくつかについて説明します。提供された例はPanelデータに適用されます。しかし、私はそれを単純なデータフレームのケースに拡張するには、あまりにも多くの初心者です。私の推測では、何とか列のインデックスを作成する必要があるということです。ありがとう!
0.10.1のこの機能は存在しますか?私はそれを使用することができませんでした。 githubの未解決の問題は何ですか? – alexbw
0.10.1はデータ列をサポートします。どのような問題がありますか? – Jeff
私はこれを、ジェフの混乱を避けるために更新するべきだと思いますか? –