並列txtファイルからdaskデータフレームを読み取る

私は2つ（またはそれ以上）の並列テキストファイルをS3に格納しています - つまり、最初のファイルの1行目は2番目のファイルの1行目に対応します。データフレームを消去します。それを行うには最高の/最も簡単な/最速の方法は何でしょうか？並列txtファイルからdaskデータフレームを読み取る

PS。私はそれぞれを別々のデータフレームに読み込むことができますが、データフレームインデックス値がユニークでも単調でもないように見えるので、インデックスに結合することはできません。同時に、行の対応は各ファイル内の位置によって定義されます。

出典

2017-10-18 evilkonrex

残念ながら、dask.dataframeは大きなファイルを行単位ではなく、バイト単位で分割します。大きなファイルの特定の行を最初にすべて調べることなく、その行にシークするのはまともです。

出典

2017-10-18 16:24:57 MRocklin

グローバル単調（または少なくともユニーク）インデックスを生成することは可能でしょうか？ map_partitions（）を使用し、ローカル（パーティション内部）のインデックス値をパーティション番号と組み合わせることで、手動で行うことができると思います。私はフレームワークで類似のものがすでに利用可能かどうか疑問に思っていました。 – evilkonrex

おそらく手動で何かを調理する必要があります。私はこれを行うための既存のコードを知りません。 – MRocklin

並列txtファイルからdaskデータフレームを読み取る

答えて

関連する問題