parquet

0熱

1答えて

CorruptStatistics - Parquetファイルを使用しているときの警告メッセージ

HortonworksでHiveでクエリを実行すると、これらのメッセージが大量になります。 INFO：org.apache.parquet.CorruptStatistics：このファイルは、前1.8.0に作成されたため、無視して統計、この問題を解決する方法PARQUET-251 を参照してください？修正されていない場合は、これらの警告の影響を正しく受けているため、どのような影響がありますか？

0熱

1答えて

Sparkを使用した寄木細工ファイルのカウント操作

HDFSでは、寄木張りの形式で同じデータが2セットあります。 1セットはcol1にソートされ、別のセットはソートされません。 sorted_tableは約127GBで、unsorted_tableは約117GBです。サイズはここでは問題ありません。私はスパークSQLを使用して2つのクエリ以下走った：私はスパークUI上でこれらのクエリを解析し select col1, count(*) from

1熱

1答えて

Spark Dataframe/Parquetの列挙型

私はSparkのデータフレームに格納し、円柱ファイルとしてディスクに保存したい数百万行のテーブルを持っています。私のパーケットファイルのサイズは現在2TBを超えており、これを最適化していることを確認したいと思います。これらの列の大部分は長い文字列値ですが、値が非常に小さいこともよくあります。たとえば、2つの別個の値（20文字と30文字の文字列）を持つカラムがあり、平均文字数が400文字の文字列

1熱

1答えて

PHPコードからORCファイルまたはParquetファイルを作成するには？

PrestoクエリのORCまたはパーケット形式のPHPアプリケーションからカスタムデータファイルを書き込むために使用できるライブラリはありますか？この場合のベストプラクティスは何ですか？うまくいけば、Map Reduceクラスタの設定を必要としないでしょう。 10倍 - ニール

0熱

1答えて

Googleの雲でPySparkで使用するためにデータを最適に保存する方法

大規模な構造化数値データセット（> 1TB）でPySparkを使用して回帰（回帰、MLなど）を行います。現在、データはGoogleのクラウドストレージでCSV形式です。 Sparkへの読み込み速度を上げるためにデータを他の形式（寄木張りなど）に変換するのが最適か、csvで読み書き速度をほぼ同じにするのが最適でしょうか？

0熱

1答えて

寄木細工の警告Amazon EMRのHive MapReduceのログを書き込む

私はHive on Tezの寄木張りとして格納されたテーブルでカスタムUDAFを実行しています。私たちのHiveジョブはYARN上で実行され、すべてAmazon EMRに設定されています。しかし、私たちが持っている寄木細工のデータが古いバージョンのParquet（1.5）で生成されているため、YARNログをいっぱいにしてジョブが終了する前にディスクの空き領域がなくなるという警告が表示されています。

1熱

1答えて

なぜspark.read.parquet（）は2つのジョブを実行しますか？

私はtest.parquetという名前の寄木張りのファイルを持っています。いくつかの整数が含まれています。 val df = spark.read.parquet("test.parquet") df.show(false) +---+ |id | +---+ |11 | |12 | |13 | |14 | |15 | |16 | |17 | |18 | |19 |

0熱

1答えて

が

は、Clouderaの5.1.2のサポート寄せ木FileFormatは行いませcdh5.1.2サポート寄せ木ファイル形式をい... のHadoop 2.3.0-cdh5.1.2 我々は、Clouderaのサイト上でいくつかの互換性を持っていますか

0熱

1答えて

スパークスローパフォーマンス

私はデータのクエリを作成し、その上にビジュアライゼーションを作成しています。現在、私のパイプライン全体が機能していますが、クエリの結果を返すのに10分以上かかることがあります。この遅い速度を引き起こすいくつかの最適化や重要なステップが欠けていると私は確信しています。詳細：私は3500 csvで500gbを持っています。私はこれらをAzure Blobストレージアカウントに保存し、Azure H

2熱

2答えて

なぜSpark DataFrameが間違ったパーティション数を作成していますか？

私は、2列 - col1とcol2を持つスパークデータフレームを持っています。 scala> val df = List((1, "a")).toDF("col1", "col2") df: org.apache.spark.sql.DataFrame = [col1: int, col2: string] 私はcol1に一意の値の数に等しいファイルの数のすべてのデータを書き込むために、pa