寄木細工のファイルをPandas DataFrameに読み込む方法は？

HadoopやSparkなどのクラスタコンピューティングインフラストラクチャを設定せずに、適度なサイズのパーケットデータセットをメモリ内のPandas DataFrameに読み込む方法を教えてください。これは、ラップトップ上の単純なPythonスクリプトを使用してメモリ内を読みたいと思うほどの量のデータです。データはHDFS上に存在しません。これは、ローカルファイルシステム上か、場合によってはS3内にあります。私は、Hadoop、Hive、Sparkのような他のサービスをスピンアップして設定したくありません。寄木細工のファイルをPandas DataFrameに読み込む方法は？

Blaze/Odoはこれを可能にしていると思いました.OdoのドキュメントにはParquetが書かれていますが、例はすべて外部のHiveランタイムを経由しているようです。

出典

2015-11-19 Daniel Mahler

データは公開されていますか？ python寄木細工の私の支店https://github.com/martindurant/parquet-python/tree/py3には、parquet.rparquetのパンダ・リーダーがありました。試してみることもできます。それが扱うことができない多くの寄せ木細工の構造があります。 – mdurant

Pandasの作者、Wes Mckinneyが参加しているApache Arrowプロジェクトを待ちます。 http://wesmckinney.com/blog/pandas-and-apache-arrow/完了後、ユーザーはPandasから直接寄木細工のファイルを読むことができるはずです。 – karenyng

質問はオフトピックとして閉鎖されているので（Googleでの最初の結果でも）コメントに答える必要があります。今すぐpyarrowを使用して寄木細工ファイルを読み込み、それをpandas DataFrame： 'import pyarrowに変換できます。 pqとしての寄木張り; df = pq.read_table（ 'dataset.parq'）。to_pandas（） ' – sroecker

パンダ0.21はnew functions for Parquet紹介：

pd.read_parquet('example_pa.parquet', engine='pyarrow')

または

pd.read_parquet('example_fp.parquet', engine='fastparquet')

上記のリンクは説明する：

これらのエンジンは非常に類似しており、/はほぼ同じ寄木細工の形式のファイルを読み書きする必要があり。これらのライブラリは、さまざまな根本的な依存関係を持っています（例えば、numbaを使用するとfastparquet、pyarrowはcライブラリを使用します）。

出典

2017-10-31 13:12:54 chrisaycock

更新：私がこれに答えた時から、寄木細工のよりよい読み書きのためにApache Arrowを見ていることがたくさんありました。また：http://wesmckinney.com/blog/python-parquet-multithreading/

は比較的うまく機能Pythonの寄木細工のリーダーがあります：https://github.com/jcrobak/parquet-python

これは、Pythonのオブジェクトを作成し、その後、プロセスは、例えばpd.read_csvよりも遅くなりますので、パンダのデータフレームに移動する必要があります。

出典

2015-11-19 20:46:29 danielfrg

注意深く、それは寄木細工への書き込みをサポートしていません... –

実際に両方の読み取り/書き込みを可能にするpyarrowがあります：http://pyarrow.readthedocs.io/ja/最新/ parquet.html – bluszcz

あなたのリンクに従おうとすると、パーミッションが拒否されました。@ bluszcz - あなたは別のものをお持ちですか？ –

寄木細工のファイルをPandas DataFrameに読み込む方法は？

答えて

関連する問題