dask

    2

    1答えて

    S3FsはS3へのPythonicファイルインターフェイスです。DASKにはAzure Storage BlobのPythonicインターフェイスはありません。 Python SDK for Azure Storage BLOBはBLOBの読み書き方法を提供しますが、インターフェイスはクラウドからローカルマシンにファイルをダウンロードする必要があります。私は、ローカルディスクに永続することなく、ス

    0

    1答えて

    かなり大きな2次元データセットのカーネル密度の見積もりをcolour the points in a scatter plotに計算しようとしています。関数scipy.stats.gaussian_kdeは時間がかかりますので、結果を速く得るためにdask(v0.15.2)を使うことができると思いました。しかし、私のアプローチが実際にスピードアップしているかどうかは分かりません。 import n

    1

    1答えて

    dask配列にtake_along_axisを実装しようとしています。 daskアレイAのブロックを取り込む操作と、daskアレイBの対応するブロックをマップする標準的な方法は何ですか? A.numblocks != B.numblocksを使用している場合、再チャンクを使用する必要がありますか?

    0

    1答えて

    a = dd.read_csv('huge.csv', blocksize=1e6) g = a.groupby(['col_a', 'col_b']) g.col_c.sum().max().compute() # failed, MemoryError 私はdask.dataframeがメモリの問題で失敗しないと思いましたが、何ですか? はところで、私が思うblocksize事項につい

    0

    1答えて

    特定の操作をオーバーライドする方法はありますか。 import dask import numpy as np a = np.zeros((10,10)) a = dask.delayed(lambda x : x*2)(a) 私はa[0]が(代わりにa[0].compute()を呼び出すために持つの)数を返すようにしたいと思います。 これは可能ですか? imgs2 = imgs - 1 imgs

    0

    1答えて

    私はdask.distributedを使用して、ワーカー間で多くのジョブをスケジュールしています。ドキュメンテーションは、Bokehインターフェース hereからプロファイリング情報を取得する方法を示しています。 また、client.profile()を呼び出す生プロファイル情報を取得できることも示しています。 しかし、このメソッドを呼び出すと、プロファイリング情報にプロセスの平均実行時間が含まれ

    0

    1答えて

    CSVからデータをロードすると、一部のCSVをロードできないため、空のパーティションになります。空のパーティションをすべて削除したいのですが、いくつかの方法は空のパーティションではうまく動作しないようです。私は再分割を試みました。例えば、repartition(npartitions=10)が動作しますが、これ以上の値を指定すると空のパーティションが残る可能性があります。 これを達成する最良の方法

    2

    1答えて

    私は >>> A.divisions (None, None) >>> A.npartitions 1 と、既にインデックスさDASKのデータフレームを持っていると私はこれまでのところ、私は A.reset_index().set_index("index", divisions=sorted(divisions)) A.repartition(divisions=sorted(di

    0

    1答えて

    GILロックは次のコードのパフォーマンスを大幅に低下させますか? 各ブロックの関数は、numpy関数の代わりにpythonループを使用します。私は外部ライブラリのためにPythonループを使用する必要があります。 テストコード: import numpy as np import dask.array as da import dask.sharedict as sharedict from

    0

    1答えて

    daskからdask.arrayを作成する最も効率的な方法は何ですか? このシリーズは、500万のリスト300から構成されています。 現在、500個のパーティションに分割されています。 は、現在、私がしようとしています: pt = [delayed(np.array)(y) for y in [delayed(list)(x) for x in series.t