S3に格納されたテキストファイルを読み込み、Sparkデータフレームを使用してORCフォーマットでS3に書き戻すことに成功しました。 - inputDf.write().orc(outputPath);
私ができないのは、スナップ圧縮でORC形式に変換することです。私はすでにコーデックの設定を書いている間にオプションを与えようとしましたが、Sparkはまだ普通のORCとして書いています。 Spark Dataframesを使用してS3にスナッピー圧縮してORC形式で書き込む方法Sparkデータフレームをスニッピー圧縮でORCフォーマットで書く
2
A
答えて
1
同じ問題に直面している人は、デフォルトではSpark 2.0の が可能です。 ORCのデフォルトの圧縮形式はsnappyに設定されています。
public class ConvertToOrc {
public static void main(String[] args) {
SparkSession spark = SparkSession
.builder()
.appName("OrcConvert")
.getOrCreate();
String inputPath = args[0];
String outputPath = args[1];
Dataset<Row> inputDf = spark.read().option("sep", "\001").option("quote", "'").csv(inputPath);
inputDf.write().format("orc").save(outputPath);
}
}
+1
ORCのデフォルトの圧縮を_change_する方法を本当に知りたい – Azuaron
関連する問題
- 1. C#でのマルチスレッド圧縮
- 2. CまたはC++でのテキスト圧縮
- 3. [圧縮モッズ書き換え
- 4. C#でObject [] []を圧縮するには
- 5. C/C++パッキングと圧縮
- 6. CouchDBの圧縮と文書の削除 - 無関係の圧縮?
- 7. Jammit圧縮は圧縮モードではなく、devモードで動作します。JS
- 8. GLテクスチャ圧縮を開く
- 9. シンプルで高速なC++圧縮ライブラリ/クラス
- 10. Cで#.zipに圧縮する方法
- 11. 多くの異なる圧縮アルゴリズムをサポートするC++ビデオ圧縮ライブラリですか?
- 12. Sparkの圧縮ファイルから全文ファイルを読む
- 13. C#圧縮とJavaScript解凍
- 14. C++の単純な圧縮
- 15. C#パス圧縮の問題
- 16. Sparkで2つ(またはそれ以上)のDataFrameを圧縮する方法
- 17. Spark SQL - gzipとスナップとlzoの圧縮形式の違い
- 18. スタティックLZMA圧縮ファイルをプログラムで圧縮解除する
- 19. illustartorでepsイメージサイズを圧縮
- 20. QuaZIPでファイルを圧縮
- 21. PHPで画像を圧縮
- 22. 画像をアンドロイドで圧縮
- 23. Sparkで多くのフィールドの行のデータフレームを作成する
- 24. sparkでデータフレームを解放するには?
- 25. tiff lzw圧縮はオリジナルのjpeg圧縮の10倍です
- 26. IIS-Expressでの圧縮(特に動的圧縮)の有効化
- 27. データ圧縮と画像圧縮の差
- 28. 圧縮ヘッダーを設定し、圧縮してヘッダーを圧縮しますか?
- 29. R&XML - データフレームを正しくフォーマットする
- 30. マルチプル書き込みとマルチプル読み取りを圧縮/圧縮ファイルにすることができます
https://issues.apache.org/jira/browse/SPARK-13543を参照してください –
デフォルト(zlibのは)とにかくスナッピーよりも良いかもしれません。https://community.hortonworks.com/questions/4067 /snappy-vs-zlib-pros-and-cons-for-each-compression.html –
@MarkRajcokありがとう、つまり、Spark 2.0を使用している場合にのみ.optionを使用してORC形式を圧縮できます。 出力を圧縮できる場所を他に提案できますか?私はAmazon EMRでSpark 1.6を使用しています – Karshit