orc

1熱

1答えて

スキーマが常に進化しているJSON/XMLの入力が多様化しています。パフォーマンスの向上のために、Hadoop/Hive環境でORCまたはParquetフォーマットを使用してそれらを処理したい。私は同じ目的を達成するための一般的なスタイルを知っています： JSONSerdeまたはXMLSerdeライブラリを使用して、まずこれらのserdeを使用してハイブテーブルを作成します。後でselect *

6熱

1答えて

スパーク：以前のバージョンではORC形式

でデータフレームを保存し、我々はRDDの「saveAsOrcFile（）」メソッドを持っていました。これは今消えてしまった！ DataFrameのデータをORCファイル形式で保存するにはどうすればよいですか？ def main(args: Array[String]) { println("Creating Orc File!") val sparkConf = new SparkConf()

3熱

1答えて

CSVをORCに変換する際の例外

入力をCSV形式で行い、ORC形式で書き込みを行い、NullPointerException例外に直面するmapreduceプログラムを作成しようとしています。以下は私は、次の java.lang.Exception: java.lang.NullPointerException at org.apache.hadoop.mapred.LocalJobRunner$Job.run(Lo

0熱

1答えて

ハイブ。既存のORCストレージのストライプサイズを確認してください

生ログからデータを解析し、それをHIVEのORCテーブルに書き込む2つのスクリプトがあります。 1つのスクリプトはより多くの列を作成し、もう1つは少なくしますどちらの表もdateフィールドで区切られています。私は異なるサイズのファイルを持つORCテーブルを持っています。列数の多い表は、多数の小さなファイル（各パーティション内のファイルごとに〜4MB）で構成され、列数が少ない表は少数の大きなファ