2

オープンソースツールを使用してリアルタイムのビッグデータツールを構築しています。私たちの主な目標は、リアルタイムでカフカサーバーからログを取得してネットワークを監視し分析することです。チュートリアルでは、分析ツールと監視ツールの2つのセクションに分割する必要があります。我々は解決策ElasticsearchとLogstashを選んだ監督の区間についてはelasticsearchをapacheに接続する方法sparkストリーミングまたはストーム?

enter image description here

私のチームと私は、Apache Storm StreamingとApache Stormを比較して、Elasticsearchでそれを使用しています。 Apache Stormは真のリアルタイムデータ処理ツールであり、Apache Spark Streamingより高速ですが、Apache Sparkのような機械学習ライブラリは提供していません。だから私たちはApache Sparkを選ぶことを考えています。エラスティックウェブサイトは、ElasticsearchデータベースをHadoopエコシステムに接続するコネクタES-Hadoopが存在することを示します。下の図でわかります。 enter image description here

しかし、スパークのSQLだけで、すべてのスパークフレームワーク(MLlib、Spark Streaming ..)があるわけではないので、この画像と少し混同しています。私たちはいくつかの仮定を行い、最終的に可能なアーキテクチャは2つありました。私たちは、技術的に正しいかどうか、私たちが間違った方向にいないかどうかだけを知りたいと思っていました。 Apacheのスパークストリーミングで

:Apacheの嵐で enter image description here

enter image description here

答えて

1

どちらも、あなたの建築図がOKです。このシナリオでは、スパークストリーミングは機能しません。 Es-hadoopは、弾力性のあるデータを取得して弾力性を持たせるための簡単なアクセスAPIを提供します。また、spark sqlの場合、spark framework(RDD)またはデータフレーム内のデータを取得する方法も提供します。データがフレームワークに入ると、すべてのmlライブラリをmlまたはアナリティクス生成用のデータに適用できます。弾性はデータをストリーミングできないため、厳密な意味でのスパークストリーミングは不可能です。したがって、ダイアグラムでは、オプションのhdfsへの矢印はストリーミングを取り除くことができ、矢印の矢印はhdfsへのポインターとなります。しかし、私の懸念は、リアルタイムでデータにmllib algosを実行し、リアルタイムのパフォーマンスを期待しています。典型的な使用事例は、オフラインでのモデル生成を行い、分析のためにリアルタイムでモデルを使用することができる。

+0

Ramdevありがとうございます。あなたの懸念について、私は、スパークのK意味と線形回帰アルゴリズムがリアルタイムで使用できることを見出しました。さらに、私はspark SQLの関心を本当によく理解していませんでした。あなたはそれを私に説明する? –

+0

Spark SQLの可用性は、一度Sparkデータフレーム内のデータを単純なSQLのようなステートメントを使用して照会できるようにすることです。その利用可能です。しかし、ワークフローで実際にリレーショナルデータの意味でデータを扱う必要がない場合、Spark SQLは使用するツールではありません。 Spark SQLはElasticデータにアクセスするもう1つの方法です(ほとんどの人はRDBMS 'をデータ操作に使用することに慣れているので)。 – Ramdev

関連する問題