Spark ORCインデックスはどのように使用しますか？

orcのインデックス作成を有効にするオプションは何ですか？Spark ORCインデックスはどのように使用しますか？

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...);

私は、オークからインデックス列「USER_ID」にそこに置くために何を持っているでしょう、.option("index", uid)を作ってるんです。

出典

2017-10-29 ForeverConfused

お試しください：.partitionBy("user_id")？

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...)

出典

2017-11-08 18:08:57

私は、partitionByはインデックスを作成するのではなく、ユーザーごとに新しいファイルを作成すると思います。しかし、あなたは答えた唯一の人なので、私はあなたに恩恵を与えます。 – ForeverConfused

@ForeverConfused私はこれについて研究しています。すぐにあなたに知らせます。 – Achyuth

@Achyuth、ORCファイルにインデックスを作成する方法はありますか？今日まで何も見つかりませんでした。 ORCファイルのインデックスを活用する唯一の方法は、Hiveを使用することです。それが間違っている場合は私を修正してください。ありがとう！ –

Spark ORCインデックスはどのように使用しますか？

答えて

関連する問題