parquet

    3

    1答えて

    Dask(Python)とDrill(Sergeantパケットを使用している)にparquetファイルを生成しました。 R \ Drillでparquetファイルを削除することができた(これらのファイルを持っているし、代わりにparquet.crcファイルを持っていませんが(すなわちfastparquet)Daskのフォーマットは_metadataと_common_metadataファイルを持って

    0

    1答えて

    Dask(Python)とR Drill(Sergeantパケットを使用)でそれぞれ1つの寄木張りファイルを生成しました。彼らは異なる実装を使用しますparquetsee my other parquet question 私たちはファイルを読み飛ばすことができません(PythonはRファイルを読み取ることができず、その逆もありません)。 R環境でPythonのパーケットファイルを読むと、次のエラ

    0

    2答えて

    私はC++アプリケーションに本質的に行指向の/ストリーミングデータ(Netflow)があり、データをParquet-gzipファイルに書きたいと思っています。 寄木細工-CPPプロジェクトでsample reader-writer.cc programを見ると、私が唯一の円柱形で、寄木細工-CPPにデータを送ることができているようです: constexpr int NUM_ROWS_PER_ROW

    1

    1答えて

    私は寄木細工のファイルを使用しています。私は、寄木細工ファイルにはint64,int32,boolean,binary,float,double,int96 and fixed_len_byte_arrayのような複数のデータ型があることがわかりました。 私はint64,int32,int96,boolean,binary,float and doubleを知っています。しかし、私は‘fixed_

    0

    2答えて

    背景 - さまざまなファイルタイプ(csvまたはparquet)をpysparkに読み込もうとしていますが、ファイルタイプを決定するプログラムを作成する作業があります。 ここでは、寄木細工のファイルは常にディレクトリであり、寄木細工のファイルはHDFSのディレクトリとして表示されているようです。 また、ディレクトリであるcsvファイルがあります。ファイル名はディレクトリ名であり、ディレクトリには複

    0

    1答えて

    「HDFSファイルごとに1つのHDFSのブロックは」最適化されている理由は、寄木細工の公式文書でセットアップを読ん parquet official document EDIT:? 上記の図のように、寄木細工ファイルは行グループで構成されています。 "1GB行グループ、1GB HDFSブロックサイズ"の場合、1行グループは1 HDFSブロックに収まるでしょう。その後、列はHDFSブロックの外にはあ

    0

    2答えて

    同じスキーマを持つ2つのパーケットファイルがあります。私は、重複データなしでSpark javaのDataframeを使って、2番目のファイルを最初のファイルとマージしたい。これを行う方法? ありがとうございます。

    1

    2答えて

    私はBigData ecoシステムを初めて使い始めています。 私はスパークストリーミングを使用してカフカのトピックを読むことに関するいくつかの記事を読んでいますが、ストリーミングではなくスパークジョブを使用してカフカから読むことができるかどうかを知りたいですか? 「はい」の場合は、私を始められるいくつかの記事やコードスニペットを指摘してくれますか? 質問の2番目の部分は、寄木張りの形式でhdfsに

    1

    1答えて

    DataStreamWriterのクエリプランに最終操作を追加する方法がSparkの構造化ストリーミングにありますか?ストリーミングデータソースから読み込み、何らかの方法でデータを充実させようとしていて、分割された外部テーブル(Hiveと仮定)を寄木張りの形式で書き戻そうとしています。書き込み操作はうまく動作し、私のためにディレクトリ内のデータを分割していますが、作成された可能性のある新しいパーテ

    1

    1答えて

    最近のarticleに記載されているセットアップをNetflixの製品Vectorflowに再現しようとしています。 これらは、データ源としてハイブのパーケットファイルを使用しています。私はscipyの疎な行列でいくつかの偽のデータを生成したいと思います。どのように私は寄木細工のファイルにそのような行列を保存するのですか?