dask

    0

    1答えて

    group_byを実行するために最適化する必要があるデータがあります。 現在、私は次のようないくつかのparquetファイル(2.5B以上)のデータを持っています: ID1 | ID2 |ロケーション| AERPLORDRVA | AOAAATDRLVA |なし ASDFGHJHASA | | QWEFRFASEEW |ホーム 私はパーティションのファイルを再保存するために、3番目の列を追加する(

    3

    1答えて

    Dask(Python)とDrill(Sergeantパケットを使用している)にparquetファイルを生成しました。 R \ Drillでparquetファイルを削除することができた(これらのファイルを持っているし、代わりにparquet.crcファイルを持っていませんが(すなわちfastparquet)Daskのフォーマットは_metadataと_common_metadataファイルを持って

    0

    1答えて

    私は測定から18GBのcsvファイルを持っており、それに基づいて計算をしたいと思っています。私はパンダでやろうとしましたが、このファイルを読むのは永遠に続くようです。 以下のコードは、私がやったことです:プロセスを加速するためにとにかくが df=pd.read_csv('/Users/gaoyingqiang/Desktop/D989_Leistung.csv',usecols=[1,2],sep

    0

    1答えて

    Dask(Python)とR Drill(Sergeantパケットを使用)でそれぞれ1つの寄木張りファイルを生成しました。彼らは異なる実装を使用しますparquetsee my other parquet question 私たちはファイルを読み飛ばすことができません(PythonはRファイルを読み取ることができず、その逆もありません)。 R環境でPythonのパーケットファイルを読むと、次のエラ

    0

    2答えて

    私は測定から18GBのcsvファイルを持っており、それに基づいて何らかの計算をしたいと思っています。私はパンダでやろうとしましたが、このファイルを読むのは永遠に続くようです。 以下のコードは、私がやったことです:プロセスを加速するためにとにかくが df=pd.read_csv('/Users/gaoyingqiang/Desktop/D989_Leistung.csv',usecols=[1,2]

    1

    1答えて

    私がやっていることは、たくさんのデータがあるので、pandaの値のカウント+ idxmaxの関数をdaskに複製することです。ここでは例のデータフレームは、次のとおりです。パンダで partner_num cust_id item_id revw_ratg_num revw_dt item_qty 0 100 01 5 05/30/2000 0 0 100 03 5 05/30/2000 0

    0

    1答えて

    これは、Dask計算の前の質問access one element in a large arrayの可能性のある回答に対する後続の質問です。 なぜ実行は以下のハングアップすることが計算DASKを使用していますか? #Suppose you created a scheduler at the ip address of 111.111.11.11:8786 from dask.distri

    1

    1答えて

    私は機能を持っているが、私はDASK配列を超える適用するsig2zと呼ばれる: def sig2z(da, zr, zi, nvar=None, dim=None, coord=None): """ Interpolate variables on \sigma coordinates onto z coordinates. Parameters ----

    6

    1答えて

    2017年8月現在、残念ながら単コアでの作業に限定されています。つまり、df.apply(myfunc, axis=1)を実行すると、マルチコアマシンで計算時間の大半が無駄になります。 データフレームに適用するすべてのコアを並列でどのように使用できますか?

    2

    1答えて

    私は、idxという名前の列を持ついくつかのファイルがあります。インデックスとして使用したいと思います。得られたデータフレームは約13M行あります。私は(40ミリ秒〜速いです) df = dd.read_parquet("file-*.parq", index = "idx") 簡単な操作 df = dd.read_parquet("file-*.parq") df = df.set_inde