1
S3に保存(圧縮)したいいくつかのcsvファイルに大きなデータセット(〜1テラバイトのデータ)があります。圧縮ファイルをdaskに読み込むのは問題がありました。サイズが大きすぎるためです。私の最初の解決策は、各csvを管理可能なサイズに分割することでした。これらのファイルは、次のように読まれています。私は、完全なデータセットを摂取する前に大きな圧縮CSVをS3に使用してDaskで使用する方法
ddf = dd.read_csv('s3://bucket-name/*.xz', encoding = "ISO-8859-1",
compression='xz', blocksize=None, parse_dates=[6])
- これは正しいアプローチである、または私は必要なものを達成するために良い方法はありますか?