私は自然言語処理の研究に使用している大きな文字列を持っています。これをPythonに格納するのがいい方法です。大きな(〜10 GB)リストをPythonで保存してアクセスする方法は?
私はpickleを使うことができましたが、リスト全体をメモリにロードすることは不可能です(私は信じています)。それは約10GBほどで、それほどメインメモリはありません。現在、私はリストをshelveライブラリに保存しています...シェルフは文字列、 "0"、 "1"、...、 "n"で索引付けされています。
このようなオブジェクトを1つのファイルに保存する方法はありますか?それでも、ランダム(ish)アクセスが可能ですか?
複数のリストに分割することをお勧めします。
ありがとうございます!
私はデータベースが本当にこの種の仕事にもっと適していると思います。私はそのショットを与えるだろうと思う:D –
ちょうどSQLite3に移植。処理がはるかに高速で、ディスクスペースの約3分の1がシェルフの処理にかかっています。 –
ハ! _and_をもっと小さくする。私はSQLite3が大好きです。 :D – sarnold