非常に大きな配列がhdf5ファイルに格納されています。私はそれをロードし、Dask配列として管理しようとしています。hdf5ファイルのシャッフルDask配列チャンク
私の挑戦は、私がプロセス内でこの配列の時間をシャッフルする必要があるということです。これはメモリよりも大きな配列をシャッフルするのは難しいことです。
だから私は成功なしでしようとしているのは、dask配列チャンクをシャッフルすることです。
#Prepare data
f=h5py.File('Data.hdf5')
dset = f['/Data']
dk_array = da.from_array(dset, chunks=dset.chunks)
チャレンジをシャッフルするにはどうすればよいですか?
あなたは達成したいことをより具体的にすることができます:どのようにシャッフルするのか、そしてどのように終了するのでしょうか? – mdurant