parquet

    0

    1答えて

    HortonworksでHiveでクエリを実行すると、これらのメッセージが大量になります。 INFO:org.apache.parquet.CorruptStatistics:このファイルは、前1.8.0に作成されたため、無視して統計 、この問題を解決する方法PARQUET-251 を参照してください? 修正されていない場合は、これらの警告の影響を正しく受けているため、どのような影響がありますか?

    0

    1答えて

    HDFSでは、寄木張りの形式で同じデータが2セットあります。 1セットはcol1にソートされ、別のセットはソートされません。 sorted_tableは約127GBで、unsorted_tableは約117GBです。 サイズはここでは問題ありません。 私はスパークSQLを使用して2つのクエリ以下走った:私はスパークUI上でこれらのクエリを解析し select col1, count(*) from

    1

    1答えて

    私はSparkのデータフレームに格納し、円柱ファイルとしてディスクに保存したい数百万行のテーブルを持っています。 私のパーケットファイルのサイズは現在2TBを超えており、これを最適化していることを確認したいと思います。 これらの列の大部分は長い文字列値ですが、値が非常に小さいこともよくあります。たとえば、2つの別個の値(20文字と30文字の文字列)を持つカラムがあり、平均文字数が400文字の文字列

    1

    1答えて

    PrestoクエリのORCまたはパーケット形式のPHPアプリケーションからカスタムデータファイルを書き込むために使用できるライブラリはありますか? この場合のベストプラクティスは何ですか?うまくいけば、Map Reduceクラスタの設定を必要としないでしょう。 10倍 - ニール

    0

    1答えて

    大規模な構造化数値データセット(> 1TB)でPySparkを使用して回帰(回帰、MLなど)を行います。現在、データはGoogleのクラウドストレージでCSV形式です。 Sparkへの読み込み速度を上げるためにデータを他の形式(寄木張りなど)に変換するのが最適か、csvで読み書き速度をほぼ同じにするのが最適でしょうか?

    0

    1答えて

    私はHive on Tezの寄木張りとして格納されたテーブルでカスタムUDAFを実行しています。私たちのHiveジョブはYARN上で実行され、すべてAmazon EMRに設定されています。しかし、私たちが持っている寄木細工のデータが古いバージョンのParquet(1.5)で生成されているため、YARNログをいっぱいにしてジョブが終了する前にディスクの空き領域がなくなるという警告が表示されています。

    1

    1答えて

    私はtest.parquetという名前の寄木張りのファイルを持っています。いくつかの整数が含まれています。 val df = spark.read.parquet("test.parquet") df.show(false) +---+ |id | +---+ |11 | |12 | |13 | |14 | |15 | |16 | |17 | |18 | |19 |

    0

    1答えて

    は、Clouderaの5.1.2のサポート寄せ木FileFormatは行いませcdh5.1.2サポート寄せ木ファイル形式をい... のHadoop 2.3.0-cdh5.1.2 我々は、Clouderaのサイト上でいくつかの互換性を持っていますか

    0

    1答えて

    私はデータのクエリを作成し、その上にビジュアライゼーションを作成しています。現在、私のパイプライン全体が機能していますが、クエリの結果を返すのに10分以上かかることがあります。この遅い速度を引き起こすいくつかの最適化や重要なステップが欠けていると私は確信しています。 詳細: 私は3500 csvで500gbを持っています。私はこれらをAzure Blobストレージアカウントに保存し、Azure H

    2

    2答えて

    私は、2列 - col1とcol2を持つスパークデータフレームを持っています。 scala> val df = List((1, "a")).toDF("col1", "col2") df: org.apache.spark.sql.DataFrame = [col1: int, col2: string] 私はcol1に一意の値の数に等しいファイルの数のすべてのデータを書き込むために、pa