dask

2熱

1答えて

dask：Microsoft Azure BLOBからDataFrameにCSVファイルを読み込む方法

S3FsはS3へのPythonicファイルインターフェイスです。DASKにはAzure Storage BlobのPythonicインターフェイスはありません。 Python SDK for Azure Storage BLOBはBLOBの読み書き方法を提供しますが、インターフェイスはクラウドからローカルマシンにファイルをダウンロードする必要があります。私は、ローカルディスクに永続することなく、ス

0熱

1答えて

dask.bag.from_sequenceを使用してカーネル密度の見積もりを計算する

かなり大きな2次元データセットのカーネル密度の見積もりをcolour the points in a scatter plotに計算しようとしています。関数scipy.stats.gaussian_kdeは時間がかかりますので、結果を速く得るためにdask（v0.15.2）を使うことができると思いました。しかし、私のアプローチが実際にスピードアップしているかどうかは分かりません。 import n

1熱

1答えて

異なるnumblockを持つ2つの配列の操作

dask配列にtake_along_axisを実装しようとしています。 daskアレイAのブロックを取り込む操作と、daskアレイBの対応するブロックをマップする標準的な方法は何ですか？ A.numblocks != B.numblocksを使用している場合、再チャンクを使用する必要がありますか？

0熱

1答えて

大きなファイルにデータフレームメモリの問題があります

a = dd.read_csv('huge.csv', blocksize=1e6) g = a.groupby(['col_a', 'col_b']) g.col_c.sum().max().compute() # failed, MemoryError 私はdask.dataframeがメモリの問題で失敗しないと思いましたが、何ですか？はところで、私が思うblocksize事項につい

0熱

1答えて

getitemのdaskでの操作のオーバーライド

特定の操作をオーバーライドする方法はありますか。 import dask import numpy as np a = np.zeros((10,10)) a = dask.delayed(lambda x : x*2)(a) 私はa[0]が（代わりにa[0].compute()を呼び出すために持つの）数を返すようにしたいと思います。これは可能ですか？ imgs2 = imgs - 1 imgs

0熱

1答えて

dask.distributedプロファイリング時間情報を取得しますか？

私はdask.distributedを使用して、ワーカー間で多くのジョブをスケジュールしています。ドキュメンテーションは、Bokehインターフェース hereからプロファイリング情報を取得する方法を示しています。また、client.profile()を呼び出す生プロファイル情報を取得できることも示しています。しかし、このメソッドを呼び出すと、プロファイリング情報にプロセスの平均実行時間が含まれ

0熱

1答えて

Daskで空のパーティションを削除します。

CSVからデータをロードすると、一部のCSVをロードできないため、空のパーティションになります。空のパーティションをすべて削除したいのですが、いくつかの方法は空のパーティションではうまく動作しないようです。私は再分割を試みました。例えば、repartition(npartitions=10)が動作しますが、これ以上の値を指定すると空のパーティションが残る可能性があります。これを達成する最良の方法

2熱

1答えて

セットパーティション

私は >>> A.divisions (None, None) >>> A.npartitions 1 と、既にインデックスさDASKのデータフレームを持っていると私はこれまでのところ、私は A.reset_index().set_index("index", divisions=sorted(divisions)) A.repartition(divisions=sorted(di

0熱

1答えて

dask.arrayとgilロック内のループ

GILロックは次のコードのパフォーマンスを大幅に低下させますか？各ブロックの関数は、numpy関数の代わりにpythonループを使用します。私は外部ライブラリのためにPythonループを使用する必要があります。テストコード： import numpy as np import dask.array as da import dask.sharedict as sharedict from

0熱

1答えて

dask.arrayをdaskから効率的に作成します。リストのシリーズ

daskからdask.arrayを作成する最も効率的な方法は何ですか？このシリーズは、500万のリスト300から構成されています。現在、500個のパーティションに分割されています。は、現在、私がしようとしています： pt = [delayed(np.array)(y) for y in [delayed(list)(x) for x in series.t