dask

0熱

1答えて

partition_onオプションを指定してdask to_parquetメソッドを実行すると列が失われる

3熱

1答えて

寄木細工ファイルの生成 - RとPythonの違い

Dask（Python）とDrill（Sergeantパケットを使用している）にparquetファイルを生成しました。 R \ Drillでparquetファイルを削除することができた（これらのファイルを持っているし、代わりにparquet.crcファイルを持っていませんが（すなわちfastparquet）Daskのフォーマットは_metadataと_common_metadataファイルを持って

0熱

1答えて

python：18GBのcsvファイルを読み込んで処理するにはどうすればいいですか？

私は測定から18GBのcsvファイルを持っており、それに基づいて計算をしたいと思っています。私はパンダでやろうとしましたが、このファイルを読むのは永遠に続くようです。以下のコードは、私がやったことです：プロセスを加速するためにとにかくが df=pd.read_csv('/Users/gaoyingqiang/Desktop/D989_Leistung.csv',usecols=[1,2],sep

0熱

1答えて

RとPython間の読み込み寄木細工ファイル

Dask（Python）とR Drill（Sergeantパケットを使用）でそれぞれ1つの寄木張りファイルを生成しました。彼らは異なる実装を使用しますparquetsee my other parquet question 私たちはファイルを読み飛ばすことができません（PythonはRファイルを読み取ることができず、その逆もありません）。 R環境でPythonのパーケットファイルを読むと、次のエラ

0熱

2答えて

python：18GBのcsvファイルを読み込んで処理する方法は？

私は測定から18GBのcsvファイルを持っており、それに基づいて何らかの計算をしたいと思っています。私はパンダでやろうとしましたが、このファイルを読むのは永遠に続くようです。以下のコードは、私がやったことです：プロセスを加速するためにとにかくが df=pd.read_csv('/Users/gaoyingqiang/Desktop/D989_Leistung.csv',usecols=[1,2]

1熱

1答えて

Dask replicate GroupbyのPandas値のカウント

私がやっていることは、たくさんのデータがあるので、pandaの値のカウント+ idxmaxの関数をdaskに複製することです。ここでは例のデータフレームは、次のとおりです。パンダで partner_num cust_id item_id revw_ratg_num revw_dt item_qty 0 100 01 5 05/30/2000 0 0 100 03 5 05/30/2000 0

0熱

1答えて

Dask計算を使用すると実行がハングする

これは、Dask計算の前の質問access one element in a large arrayの可能性のある回答に対する後続の質問です。なぜ実行は以下のハングアップすることが計算DASKを使用していますか？ #Suppose you created a scheduler at the ip address of 111.111.11.11:8786 from dask.distri

1熱

1答えて

`はRuntimeError：リソースdask.array.map_blocksのため一時的にunavailable`（）

私は機能を持っているが、私はDASK配列を超える適用するsig2zと呼ばれる： def sig2z(da, zr, zi, nvar=None, dim=None, coord=None): """ Interpolate variables on \sigma coordinates onto z coordinates. Parameters ----

6熱

1答えて

1台のマシン上のすべてのコアを利用するPandas Dataframesでapply（）をどのように並列化しますか？

2017年8月現在、残念ながら単コアでの作業に限定されています。つまり、df.apply(myfunc, axis=1)を実行すると、マルチコアマシンで計算時間の大半が無駄になります。データフレームに適用するすべてのコアを並列でどのように使用できますか？

2熱

1答えて

データフレームの既知の分け目とパフォーマンス

私は、idxという名前の列を持ついくつかのファイルがあります。インデックスとして使用したいと思います。得られたデータフレームは約13M行あります。私は（40ミリ秒〜速いです） df = dd.read_parquet("file-*.parq", index = "idx") 簡単な操作 df = dd.read_parquet("file-*.parq") df = df.set_inde