orc

    1

    1答えて

    スキーマが常に進化しているJSON/XMLの入力が多様化しています。パフォーマンスの向上のために、Hadoop/Hive環境でORCまたはParquetフォーマットを使用してそれらを処理したい。 私は同じ目的を達成するための一般的なスタイルを知っています: JSONSerdeまたはXMLSerdeライブラリを使用して、まずこれらのserdeを使用してハイブテーブルを作成します。後でselect *

    6

    1答えて

    でデータフレームを保存し、我々はRDDの「saveAsOrcFile()」メソッドを持っていました。これは今消えてしまった! DataFrameのデータをORCファイル形式で保存するにはどうすればよいですか? def main(args: Array[String]) { println("Creating Orc File!") val sparkConf = new SparkConf()

    3

    1答えて

    入力をCSV形式で行い、ORC形式で書き込みを行い、NullPointerException例外に直面するmapreduceプログラムを作成しようとしています。以下は 私は、次の java.lang.Exception: java.lang.NullPointerException at org.apache.hadoop.mapred.LocalJobRunner$Job.run(Lo

    0

    1答えて

    生ログからデータを解析し、それをHIVEのORCテーブルに書き込む2つのスクリプトがあります。 1つのスクリプトはより多くの列を作成し、もう1つは少なくしますどちらの表もdateフィールドで区切られています。 私は異なるサイズのファイルを持つORCテーブルを持っています。 列数の多い表は、多数の小さなファイル(各パーティション内のファイルごとに〜4MB)で構成され、列数が少ない表は少数の大きなファ