オープンソースツールを使用してリアルタイムのビッグデータツールを構築しています。私たちの主な目標は、リアルタイムでカフカサーバーからログを取得してネットワークを監視し分析することです。チュートリアルでは、分析ツールと監視ツールの2つのセクションに分割する必要があります。我々は解決策ElasticsearchとLogstashを選んだ監督の区間についてはelasticsearchをapacheに接続する方法sparkストリーミングまたはストーム?
。
私のチームと私は、Apache Storm StreamingとApache Stormを比較して、Elasticsearchでそれを使用しています。 Apache Stormは真のリアルタイムデータ処理ツールであり、Apache Spark Streamingより高速ですが、Apache Sparkのような機械学習ライブラリは提供していません。だから私たちはApache Sparkを選ぶことを考えています。エラスティックウェブサイトは、ElasticsearchデータベースをHadoopエコシステムに接続するコネクタES-Hadoopが存在することを示します。下の図でわかります。
しかし、スパークのSQLだけで、すべてのスパークフレームワーク(MLlib、Spark Streaming ..)があるわけではないので、この画像と少し混同しています。私たちはいくつかの仮定を行い、最終的に可能なアーキテクチャは2つありました。私たちは、技術的に正しいかどうか、私たちが間違った方向にいないかどうかだけを知りたいと思っていました。 Apacheのスパークストリーミングで
Ramdevありがとうございます。あなたの懸念について、私は、スパークのK意味と線形回帰アルゴリズムがリアルタイムで使用できることを見出しました。さらに、私はspark SQLの関心を本当によく理解していませんでした。あなたはそれを私に説明する? –
Spark SQLの可用性は、一度Sparkデータフレーム内のデータを単純なSQLのようなステートメントを使用して照会できるようにすることです。その利用可能です。しかし、ワークフローで実際にリレーショナルデータの意味でデータを扱う必要がない場合、Spark SQLは使用するツールではありません。 Spark SQLはElasticデータにアクセスするもう1つの方法です(ほとんどの人はRDBMS 'をデータ操作に使用することに慣れているので)。 – Ramdev