2017-10-29 7 views
6

orcのインデックス作成を有効にするオプションは何ですか?Spark ORCインデックスはどのように使用しますか?

  df 
      .write() 
      .option("mode", "DROPMALFORMED") 
      .option("compression", "snappy") 
      .mode("overwrite") 
      .format("orc") 
      .option("index", "user_id") 
      .save(...); 

私は、オークからインデックス列「USER_ID」にそこに置くために何を持っているでしょう、.option("index", uid)を作ってるんです。

答えて

2

お試しください:.partitionBy("user_id")

df 
     .write() 
     .option("mode", "DROPMALFORMED") 
     .option("compression", "snappy") 
     .mode("overwrite") 
     .format("orc") 
     .partitionBy("user_id") 
     .save(...) 
+0

私は、partitionByはインデックスを作成するのではなく、ユーザーごとに新しいファイルを作成すると思います。しかし、あなたは答えた唯一の人なので、私はあなたに恩恵を与えます。 – ForeverConfused

+0

@ForeverConfused私はこれについて研究しています。すぐにあなたに知らせます。 – Achyuth

+0

@Achyuth、ORCファイルにインデックスを作成する方法はありますか?今日まで何も見つかりませんでした。 ORCファイルのインデックスを活用する唯一の方法は、Hiveを使用することです。それが間違っている場合は私を修正してください。ありがとう! –

関連する問題