dask

1熱

1答えて

次のテストで予期しない動作が発生しています。私は何か誤解している可能性がありますが、現在私はアイデアがなく、入力を感謝します。次のテストを検討してください。 # test passing an object from dask import delayed, compute, get, set_options # for testing the caching from dask.base

1熱

1答えて

DaskでKilledWorkerの例外は何を意味しますか？

dask.distributedスケジューラーでDaskを使用すると、私のタスクはKilledWorker例外を返して戻ります。これらのエラーは何を意味しますか？

1熱

1答えて

分散型ファーストディスパッチの処理時間が一貫していません

私は、ハイブフォーマットとスナッピー圧縮のパーケットファイルを用意しています。それはメモリに収まり、pandas.infoは以下のデータを提供します。寄木細工のファイルのグループごとの行数が今 >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+d

1熱

1答えて

Python - csvファイルからインポートされたDaskデータフレーム

大きなデータセットをインポートしてマージする必要があります。私はこれに類似した他の質問を知っていますが、私の問題に固有の答えを見つけることができませんでした。 daskで大きなデータセットをデータフレームに読み込むことはできましたが、別のデータフレームとマージすることはできませんでした。 import dask.dataframe as dd import pandas as pd #I h

0熱

1答えて

DaskがCSVを読み込まないのはなぜですか？

私はちょうど2つの問題があります Dask DataFrame Structure: SOME_COL FOO BAR npartitions=1 float64 float64 float64 ... ... ... Dask Name: describe, 1234 tasks を与える import dask.dataframe

4熱

1答えて

daskデータフレームのilocに相当するものは何ですか？

私は、場所ごとにdaskデータフレームをインデックスする必要がある状況があります。利用可能な.ilocメソッドがないことがわかります。代わりがありますか？または、ラベルベースのインデックスを使用する必要がありますか？例えば、私は import dask.dataframe as dd import numpy as np import pandas as pd df = dd.from_p

1熱

1答えて

Dask Dataframesでlazily（または同時に実行する）.set_index（）を実行できますか？

TL; DR：それは同時に並行しにはいくつかのDASKデータフレームの方法 .set_index()することは可能ですか？あるいは、複数のDask Dataframesに遅れて .set_index()を遅延させることができます。その結果、インデックスはと並行してに設定されますか？ここではシナリオです：私は保存されているいくつかの時系列各時系列を持って .csvいくつかのファイルです。

0熱

1答えて

並列txtファイルからdaskデータフレームを読み取る

私は2つ（またはそれ以上）の並列テキストファイルをS3に格納しています - つまり、最初のファイルの1行目は2番目のファイルの1行目に対応します。データフレームを消去します。それを行うには最高の/最も簡単な/最速の方法は何でしょうか？ PS。私はそれぞれを別々のデータフレームに読み込むことができますが、データフレームインデックス値がユニークでも単調でもないように見えるので、インデックスに結合するこ

1熱

1答えて

サブセットDASKのデータフレーム

が、これはメモリにDASKのデータフレームのロードサブセットの有効な方法です。より小さなパンダにデータフレーム化する。また、私はdask dataframesがiloc属性を持っているとは思わない。私はバージョン0.15.2を使用していますユースケースの点では、これはデータのバッチを深い学習（たとえばケラス）に読み込む方法になります。

1熱

1答えて

データ通信の代わりに純粋にアイドルに基づいてタスクをスケジュールする

Googleコンピューティングエンジン上で実行される分散型の相互依存タスクをスケジュール設定する。途中で作業員を追加してインスタンスを開始すると、タスクはスケジューリングされません（ただし、スケジューラーには問題ありません）。私は（http://distributed.readthedocs.io/en/latest/scheduling-state.html#distributed.schedu