dask

    0

    1答えて

    質問私はローカルで実行されているDASKスケジューラへのリモートリソースにDASK労働者の正しいアドレスを指定するにはどうすればよい ? 状況は、私は私がにsshをすることができますリモートリソースを持っています。そこには、Dask、Distributedを実行するために必要なすべての依存関係を含むイメージを実行するドッキング・コンテナがあります。実行すると は、コンテナには、次の実行:同じネット

    0

    1答えて

    私は文字列のマッチングを行い、pythonであいまいな曖昧さを使って一致IDを取得しようとしています。私のデータセットは膨大で、dataset1 = 180万レコード、dataset2 = 160万レコードです。 、私がこれまで試したどのような 、 まず私はそれがmulti indexを構築する際に、残念ながら、それはメモリ不足、Pythonでrecord linkageパッケージを使用してみまし

    1

    2答えて

    this答えによれば、データフレームのインデックスがソートされていることをDaskが認識している場合、Daskデータフレームはスマートインデックスを実行できます。 インデックスがソートされているかどうかをDaskに知らせるにはどうすればよいですか?私はこのような何かやっている私の特定の状況では :私はDASKがないことを前提としてい dd = dask.dataframe.read_hdf(som

    2

    2答えて

    以下の操作(Dask DataFrame APIドキュメントから適合)では、スケジューラにアタッチしないと)、操作は正常に正常に完了します。 from dask.distributed import Client import dask.dataframe as dd import pandas as pd connection_loc = 'foobar.net:8786' # cli

    2

    2答えて

    私はDaskでSparkのunpersistと同等のものを見つけようとしています。それは目的を前処理するための多くの集計を計算する を必要とするため、呼び出し元のコンテキストがすでに例えば、大df続いている :明示的なunpersistのための私の必要性 状況で発生します。 呼び出しコンテキストは、反復アルゴリズムを実行するため、persistを呼び出す必要がある関数、たとえば を呼び出します。

    1

    1答えて

    私は自分のdask-schedulerを起動し、bokeh Webページを開きます。しかし、リンクにアクセスしようとすると、ロード中にハングするだけです。私はすべてを再インストールしようとしましたが(daskとbokeh)、問題は残っています。これは既知の問題ですか?私はそれをインストールするためにコンドームを使用していません。この質問hereに似ていますが、その解決策は私の上で動作しませんでした

    1

    1答えて

    dask.bagを使用してjsonファイルを読み取るとき、ファイル内のjsonが複数行の場合はJSONDecodeErrorになります。ここ import json import dask.bag as db db.read_text('single-line.json').map(json.loads).compute() [[{'a': 'b'}, {'c': 'd'}]] db

    0

    1答えて

    私は「データサイエンスの紹介」で、Pythonツールを使用して大きなデータや機械学習などを学んでいます。 第4章でブロック計算に関するコードがあります: import dask.array as da import bcolz as bc import numpy as np import dask n = 1e4 #A ar = bc.carray(np.arange(n).res

    1

    1答えて

    私はdaskを使い始めようとしています。下のおもちゃの例では、私は3つの列、site,countsおよびreadingsを持っています。 siteおよびcountsはスカラーの列であり、readingsは3次元配列を含んでいます。 countsで計算を実行できますが、readingsで実行しようとすると例外が発生します。私はここで正しくdaskを使用していますか? import dask.arra

    2

    1答えて

    DataFrameをDaskの永続化されたSeries(列)に変換する効率的な方法を見つけようとしています。 は、データサイズがワーカーメモリの合計よりもはるかに大きいとほとんどの操作が読み取りからディスク/流出ツーディスクによってラップされるシナリオを検討してください。個々の列(または列のペア)でのみ動作するアルゴリズムでは、列操作ごとにディスクからDataFrame全体を読み込むのは非効率的で