dask

    1

    1答えて

    次のテストで予期しない動作が発生しています。私は何か誤解している可能性がありますが、現在私はアイデアがなく、入力を感謝します。次のテストを検討してください。 # test passing an object from dask import delayed, compute, get, set_options # for testing the caching from dask.base

    1

    1答えて

    dask.distributedスケジューラーでDaskを使用すると、私のタスクはKilledWorker例外を返して戻ります。これらのエラーは何を意味しますか?

    1

    1答えて

    私は、ハイブフォーマットとスナッピー圧縮のパーケットファイルを用意しています。それはメモリに収まり、pandas.infoは以下のデータを提供します。 寄木細工のファイルのグループごとの行数が今 >>> df.info() <class 'pandas.core.frame.DataFrame'> Index: 21547746 entries, YyO+tlZtAXYXoZhNr3Vg3+d

    1

    1答えて

    大きなデータセットをインポートしてマージする必要があります。私はこれに類似した他の質問を知っていますが、私の問題に固有の答えを見つけることができませんでした。 daskで大きなデータセットをデータフレームに読み込むことはできましたが、別のデータフレームとマージすることはできませんでした。 import dask.dataframe as dd import pandas as pd #I h

    0

    1答えて

    私はちょうど2つの問題があります Dask DataFrame Structure: SOME_COL FOO BAR npartitions=1 float64 float64 float64 ... ... ... Dask Name: describe, 1234 tasks を与える import dask.dataframe

    4

    1答えて

    私は、場所ごとにdaskデータフレームをインデックスする必要がある状況があります。利用可能な.ilocメソッドがないことがわかります。代わりがありますか?または、ラベルベースのインデックスを使用する必要がありますか? 例えば、私は import dask.dataframe as dd import numpy as np import pandas as pd df = dd.from_p

    1

    1答えて

    TL; DR: それは同時に並行しにはいくつかのDASKデータフレーム の方法 .set_index()することは可能ですか?あるいは、複数のDask Dataframesに遅れて .set_index()を遅延させることができます。その結果、インデックスは と並行して に設定されますか?ここで はシナリオです:私は保存されているいくつかの時系列 各時系列を持って .csvいくつかのファイルです。

    0

    1答えて

    私は2つ(またはそれ以上)の並列テキストファイルをS3に格納しています - つまり、最初のファイルの1行目は2番目のファイルの1行目に対応します。データフレームを消去します。それを行うには最高の/最も簡単な/最速の方法は何でしょうか? PS。私はそれぞれを別々のデータフレームに読み込むことができますが、データフレームインデックス値がユニークでも単調でもないように見えるので、インデックスに結合するこ

    1

    1答えて

    が、これはメモリにDASKのデータフレームのロードサブセットの有効な方法です。より小さなパンダにデータフレーム化する。また、私はdask dataframesがiloc属性を持っているとは思わない。 私はバージョン0.15.2を使用しています ユースケースの点では、これはデータのバッチを深い学習(たとえばケラス)に読み込む方法になります。

    1

    1答えて

    Googleコンピューティングエンジン上で実行される分散型の相互依存タスクをスケジュール設定する。途中で作業員を追加してインスタンスを開始すると、タスクはスケジューリングされません(ただし、スケジューラーには問題ありません)。私は(http://distributed.readthedocs.io/en/latest/scheduling-state.html#distributed.schedu