dask

    1

    1答えて

    ローカルにサンプルデータセットがあり、クラスタ上でいくつかの基本操作を実行しようとしています。 import dask.dataframe as ddf from dask.distributed import Client client = Client('Ip address of the scheduler') import dask.dataframe as

    2

    1答えて

    私はdaskを試してみる新しいユーザーです。 Delayedに関数とコードを自動的に変換するためにdelayedを使用したい。しかし、私はdelayed.computeを再帰的コレクションで遅延計算しませんでした... from dask import delayed, base @delayed def inc(x): return x + 1 @delayed def c

    1

    1答えて

    Daskでループを実装する際に問題が発生しています。 は、例えば、次のコードで: for i in range(len(col)): if df[col[i]].dtype=='object': pass elif df[col[i]].std().compute()==0: cols_constant.append(col[i]) df = df.d

    1

    1答えて

    前の投稿に続く。以前は、Pandasを使用してデータフレームに新しい列を作成する手助けをしました。各値は、別の列の値に基づいて因数分解された値または一意の値を表します。私はテストケースでこれを使用し、正常に動作しますが、私は同じプロセスを行うためにはるかに大きなログとhtmファイルに問題があります。私は毎月12のログファイルを持っており、それらを結合した後、私は17Gbのファイルを扱います。私はそ

    0

    1答えて

    Daskをバージョン0.14.3から0.15.0に更新し、1.16.3から1.17.0に配布しました。 BokehWebInterfaceはこのバージョンから削除されました。ホームページはhttp://localhost:8787に読み込むことができますが、タスク、ステータス、ワーカーにアクセスすることはできません(すべてのタスクが完了してからエラーに達するまでリロードしようとします)。すべてが以

    0

    1答えて

    開発者は大きな配列を公開してデータベースとしてDaskを使用する必要がありますか?もしそうなら、(マシン自体を変更する以外に)DaskがアクセスできるRAMを増やすために行うべき推奨ワークフローは何ですか?

    2

    1答えて

    dask-workerを実行すると、40.53 GBのメモリを持つ次の出力が表示されます。 40.53 GBはここにある分散RAMまたはディスクメモリを指していますか?おかげ

    2

    1答えて

    私は、ダスクグラフのタスクが別のワーカーによって何度も実行できることに気付きました。 また、私は(それが回復力に関連することができるかどうか分からない)スケジューラ・コンソールでそのログを参照してください。 「WARNING - 失われた接続へ...結果を送信中:ストリームが閉じ です" daskが別のワーカーで同じタスクを2回実行するのを妨げる方法はありますか?私が使用している 注: DASK

    1

    1答えて

    dask.distributedの仕組みをよりよく理解したいと思います。私は以下のようにDaskデータフレームを読み込んだシンプルなcsvを持っています。この操作は正常に実行され、データフレームの長さを表す整数値を返します。これは予想される動作です。 import dask.dataframe as dd gdf = dd.read_csv(filepath) len(gdf) # retu

    0

    1答えて

    私は値のリストを作成する関数を持っています。データフレームから行が与えられたときに、そのような関数が行う可能性のあるものを単純化したものです。 def generate_key_list_pair(row): some_list = do_something_to_make_a_list(row) return some_list 私はその後、DASKのデータフレーム内のすべ