2017-12-12 13 views

答えて

1

Parquetファイルは保存時に元のデータのスキーマを自動的に保存します。 Sparkや他のシステムがデータの書き込み/読み取りを行う場合、違いはありません。


一つまたは複数の列を保存するときにデータを分割するために使用された場合(情報がファイル構造に格納されているので)、これらの列のデータ型が失われます。これらのデータ型は、読み込み時にSparkによって自動的に推論されます(現在、数値データ型と文字列のみがサポートされています)。

この自動推論は、spark.sql.sources.partitionColumnTypeInference.enabledをfalseに設定することでオフにすることができます。これにより、これらの列は文字列として読み取られます。詳細はhereを参照してください。

関連する問題