2017-03-09 8 views
1

HDFSからデータを取得するWeb UIを設計したいと思います。 HDFSに保存されているこのデータを使用していくつかのレポートを生成したいと思います。私は自分のカスタムレポートフォーマットを持っています。私はデータをフェッチするためにREST APIを書いています。しかし、HIVEクエリを実行するとレイテンシの問題が発生するため、私はこれに対して異なるアプローチを望んでいます。実行エンジンとしてSPARKを使用したImpala ORハイブ?

  1. テーブルを作成するためにIMPALAを使用します。しかし、IMPALAのRESTサポートについてはわかりません。

  2. MRの代わりにHIVEを使用すると、実行エンジンとしてSPARKを使用します。 。

  3. spark-job-serverは、RESTサポートを提供し、SPARK-SQLでデータをフェッチします。

どちらのアプローチが適しているのでしょうか、それとももっと良いアプローチがありますか? 私はこれで非常に新しいので、誰でも助けてください。

+0

spark engineとspark-sqlの間で混乱しています。これはspark cli for SQL –

+0

にとって間違っています。だから私はいくつかの読書の後に私の質問を変更しました。 – HardRocker

答えて

0

レイテンシが主な考慮事項である場合は、impalaを選択することをお勧めします。 hdfsのSQL処理に専念しています。あなたが達成しているREST APIとアプリケーションロジックについては、これは良いと思われます。example

関連する問題