dask

0熱

1答えて

質問私はローカルで実行されているDASKスケジューラへのリモートリソースにDASK労働者の正しいアドレスを指定するにはどうすればよい？状況は、私は私がにsshをすることができますリモートリソースを持っています。そこには、Dask、Distributedを実行するために必要なすべての依存関係を含むイメージを実行するドッキング・コンテナがあります。実行するとは、コンテナには、次の実行：同じネット

0熱

1答えて

マルチプロセッシングファジー曖昧な文字列検索 - python

私は文字列のマッチングを行い、pythonであいまいな曖昧さを使って一致IDを取得しようとしています。私のデータセットは膨大で、dataset1 = 180万レコード、dataset2 = 160万レコードです。、私がこれまで試したどのような、まず私はそれがmulti indexを構築する際に、残念ながら、それはメモリ不足、Pythonでrecord linkageパッケージを使用してみまし

1熱

2答えて

インデックスがソートされていることをDaskに知らせる方法は？

this答えによれば、データフレームのインデックスがソートされていることをDaskが認識している場合、Daskデータフレームはスマートインデックスを実行できます。インデックスがソートされているかどうかをDaskに知らせるにはどうすればよいですか？私はこのような何かやっている私の特定の状況では：私はDASKがないことを前提としてい dd = dask.dataframe.read_hdf(som

2熱

2答えて

Dask Distributedは、compute（）中に要求された操作を渡していないように見えます

以下の操作（Dask DataFrame APIドキュメントから適合）では、スケジューラにアタッチしないと）、操作は正常に正常に完了します。 from dask.distributed import Client import dask.dataframe as dd import pandas as pd connection_loc = 'foobar.net:8786' # cli

2熱

2答えて

Daskでデータの重複がないインクリメンタルキャッシングを実現する方法は？

私はDaskでSparkのunpersistと同等のものを見つけようとしています。それは目的を前処理するための多くの集計を計算するを必要とするため、呼び出し元のコンテキストがすでに例えば、大df続いている：明示的なunpersistのための私の必要性状況で発生します。呼び出しコンテキストは、反復アルゴリズムを実行するため、persistを呼び出す必要がある関数、たとえばを呼び出します。

1熱

1答えて

Dask Distributed Diagnostic Webページがリンクを開くことができない

私は自分のdask-schedulerを起動し、bokeh Webページを開きます。しかし、リンクにアクセスしようとすると、ロード中にハングするだけです。私はすべてを再インストールしようとしましたが（daskとbokeh）、問題は残っています。これは既知の問題ですか？私はそれをインストールするためにコンドームを使用していません。この質問hereに似ていますが、その解決策は私の上で動作しませんでした

1熱

1答えて

`dask.bag` JSONDecodeError複数行のjson配列を読み込んだ場合

dask.bagを使用してjsonファイルを読み取るとき、ファイル内のjsonが複数行の場合はJSONDecodeErrorになります。ここ import json import dask.bag as db db.read_text('single-line.json').map(json.loads).compute() [[{'a': 'b'}, {'c': 'd'}]] db

0熱

1答えて

ValueError：チャンクとシェイプは同じ長さ/ディメンションでなければなりません

私は「データサイエンスの紹介」で、Pythonツールを使用して大きなデータや機械学習などを学んでいます。第4章でブロック計算に関するコードがあります： import dask.array as da import bcolz as bc import numpy as np import dask n = 1e4 #A ar = bc.carray(np.arange(n).res

1熱

1答えて

Daskを使ってこの "入れ子になった"構造化配列の計算を実行するにはどうすればよいですか？

私はdaskを使い始めようとしています。下のおもちゃの例では、私は3つの列、site,countsおよびreadingsを持っています。 siteおよびcountsはスカラーの列であり、readingsは3次元配列を含んでいます。 countsで計算を実行できますが、readingsで実行しようとすると例外が発生します。私はここで正しくdaskを使用していますか？ import dask.arra

2熱

1答えて

DaskでDataFrameから複数のシリーズに効率的に移動する方法は？

DataFrameをDaskの永続化されたSeries（列）に変換する効率的な方法を見つけようとしています。は、データサイズがワーカーメモリの合計よりもはるかに大きいとほとんどの操作が読み取りからディスク/流出ツーディスクによってラップされるシナリオを検討してください。個々の列（または列のペア）でのみ動作するアルゴリズムでは、列操作ごとにディスクからDataFrame全体を読み込むのは非効率的で