2017-07-04 1 views
1

S3バケットでApache Drillを使用しようとしていますが、それは非常に遅いです。Apache S3データソースでApache drillが使用できなくなりますか?

私は約20,000のJSONファイルを持っています。たとえば、数秒でローカルから結果を得ることができます。例:

> select count(*) from dfs.`/path/to/my/files/*.json`; 

2秒未満で返されます。

も、10分後に完了するために、失敗しているS3バケットにまったく同じファイルでまったく同じクエリを実行しようとすると:

> select count(*) from s3.`releases`; 

これはなぜでしょうか?私はドリルの全ポイントが大きなデータセットでは速かったと思っていました。

My S3接続自体はOKです。 SHOW filesは、妥当な時間内に私の利用可能なフォルダをうまく表示し、ネットワーク接続にも問題はありません。

+1

S3でないファイルシステムを持っている場合は、athenaをご覧ください! – Henry

+0

私はS3がファイルシステムではないことを知っています。しかし、ドリル・ドキュメントから、私はそれをドリルの高速データソースとして使用できると仮定しましたが、そうではないかもしれません。 – Richard

+0

なぜそれが_fastデータソースになると思いますか? –

答えて

1

そのない直接あなたの質問への答えがありますが、S3バケットに照会すると、あなたが大規模なデータセットに

関連する問題