dask

0熱

2答えて

dask.compute（...）はブロッキング呼び出しであると予想されます。しかし、dask.computeをネストし、内側のものが（dask.dataframe.read_parquetのように）I/Oを実行すると、内部のdask.computeはブロックされません。私はのように、それぞれ8つのプロセスと2人の労働者を開始した場合 import dask, distributed def

2熱

1答えて

複雑なフィルタリングが

私はパンダのデータフレームのオブジェクトの「複合体」のフィルタリングを行うために使用しています： import numpy as np import pandas as pd data = pd.DataFrame(np.random.random((10000, 2)) * 512, columns=["x", "y"]) data2 = data[np.sqrt((data.x - 20

0熱

1答えて

dask（列挙型のpandasから）の列の副選択を計算ブール値インデクサ

私はdask（ddとしてインポート）し、いくつかのパンダ（pdとしてインポートされた）コードを変換しようとしています。次の行の目的は、データをこれらの列にスライスすることです。この値は、daskで計算された要件を満たした値です。 csvには特定のテーブルがあります。前者のコードは、 inputdata=pd.read_csv("inputfile.csv"); pseudoa=inputdat

1熱

1答えて

大きな圧縮CSVをS3に使用してDaskで使用する方法

S3に保存（圧縮）したいいくつかのcsvファイルに大きなデータセット（〜1テラバイトのデータ）があります。圧縮ファイルをdaskに読み込むのは問題がありました。サイズが大きすぎるためです。私の最初の解決策は、各csvを管理可能なサイズに分割することでした。これらのファイルは、次のように読まれています。私は、完全なデータセットを摂取する前に ddf = dd.read_csv('s3://bucke

1熱

1答えて

Dask Distributed：計算後にエラーが発生する

Linux CentOS 7でPython 3.6.2をインストールしてDask Distributedを実行しています。私の計算はうまくいくようです（私はまだコードを改善していますが、いくつかの結果が得られます）が、明らかに竜巻モジュールにリンクされたいくつかのpythonエラーが出ています。私は1つのノードスタンドアロンのDask分散クラスタを起動しています。ここでは、最も一般的な例である：

1熱

1答えて

は、私は（MPIからDASKとDask.distributedに移動）画像解析を実行するためにクラスタを設定していますSSHトンネリング

問題を介して配布DASKを使用してボケサーバーへのアクセス。私はトンネリングを介してマスターノードに接続し、bokehサーバーへのアクセス方法はわかりません。ステップ接続1. SSHトンネリングを経由して自分のサーバーのマスターノードへ： ssh -L 7000:localhost:7000 [email protected] 2. [スタート私は（もポート7000でトンネリング）を使用する

1熱

1答えて

キューから固定数の入力を処理するDaskアプリケーションを構成する方法はありますか？

私たちは以下を実装する必要があります。のRedisからJSON文書を取得することは抽出し、JSON文書を解析します：チャンネルから消費メッセージごとに：メッセージの既知の数を提供しますRedisのチャネルを考えます結果のリストには、単一の結果を生成するために、すべての結果オブジェクト間で集計オブジェクト多くの作業者にステップ1と2の両方を配布し、すべての結果をメモリに集めないようにします

1熱

1答えて

奇妙な挙動は

私はこれがDASKのバグやPythonの機能がある場合はわからないラムダ関数のループに適用されます。簡単な例： data = pd.DataFrame({'tags': [['dog'], ['cat', 'red'], ['cat'], ['cat', 'red'], ['cat', 'red'], ['dog', 'red']]}) print data tags 0 [

1熱

1答えて

ファイル/ CSVに非同期にDaskコレクションを保存する

私はdask.distributedを使用してさまざまな種類のデータ処理パイプラインを実装しています。通常、元のデータはS3から読み込まれ、処理された（大きな）コレクションはS3のCSVに書き込まれます。処理を非同期に実行して進捗状況を監視できますが、コレクションをファイルに保存するすべてのto_xxx（）メソッドが同期呼び出しのようです。その欠点の1つは、コールがブロックされる可能性があり、潜

1熱

1答えて

Dask worker graceful task failure

dask.distributedワーカーを実行すると、タスク関数にスローされた例外がスケジューラに伝播され、ジョブ全体が強制終了されます。スケジューラが（別のワーカーに）潜在的にそれを再試行するように、正常にタスクを失敗させる方法はありますか？