2017-10-18 1 views
0

私は2つ(またはそれ以上)の並列テキストファイルをS3に格納しています - つまり、最初のファイルの1行目は2番目のファイルの1行目に対応します。データフレームを消去します。それを行うには最高の/最も簡単な/最速の方法は何でしょうか?並列txtファイルからdaskデータフレームを読み取る

PS。私はそれぞれを別々のデータフレームに読み込むことができますが、データフレームインデックス値がユニークでも単調でもないように見えるので、インデックスに結合することはできません。同時に、行の対応は各ファイル内の位置によって定義されます。

答えて

1

残念ながら、dask.dataframeは大きなファイルを行単位ではなく、バイト単位で分割します。大きなファイルの特定の行を最初にすべて調べることなく、その行にシークするのはまともです。

+0

グローバル単調(または少なくともユニーク)インデックスを生成することは可能でしょうか? map_partitions()を使用し、ローカル(パーティション内部)のインデックス値をパーティション番号と組み合わせることで、手動で行うことができると思います。私はフレームワークで類似のものがすでに利用可能かどうか疑問に思っていました。 – evilkonrex

+0

おそらく手動で何かを調理する必要があります。私はこれを行うための既存のコードを知りません。 – MRocklin

関連する問題