jsonの集約クエリの実行パフォーマンスを向上させるのに役立つ必要があります。Apache Drill JSONクエリのパフォーマンス
私の単純なcount(*)
jsonでの集約クエリは、わずか640MBのデータで完了するのに11分かかります。
私は1つのノードクラスタ(8コア、8GB RAM、ローカルSSDストレージを使用)を持っています。
データの統計:
- 163783 JSONファイル
- ドリルUIから
合計640メガバイト私は、以下を参照してくださいすることができます
何ができるDURATION: 11 min 27.665 sec *PLANNING*: 06 min 30.337 sec QUEUED: Not Available EXECUTION: 04 min 57.328 sec
私パフォーマンスを向上させるには?読み取りパフォーマンスを向上させるには、jsonファイルの記憶域や圧縮を変更する必要がありますか?
jsonファイルをマージして、その動作を確認できますか? 163,783個のjsonファイルの数がHadoopの小ファイル問題のようです。例のようにファイルをマージすることができます - https://drill.apache.org/docs/json-data-model/#ticket_sales.json-contents。 – InfamousCoconut