2016-07-25 6 views
1

私は 'ビッグデータ'について専門家ではありません:)ELK with Kafka and Hadoop

私のシナリオは、ログを生成するよりもEC2の2つのインスタンスです。

これらのログは、基本的にSyslogとアプリケーションイベント(カスタムログ)です。

私は、ログをキャッチし、フィルタを適用し、データを表示するためにELKスタックを使用したいと考えています。

場合によっては、データを処理する専用キューシステム(rabbitMQ)にカスタムイベントを送信したい(推奨エンジン)。

私の質問は、基本的にはKafkaやHadoopのようなツールを使うべきなのですが、私は24時間のログを解析し、Debianのログ回転機能でそれらを移動したいのですか?

ありがとうございました!誰かが興味を持っている場合は、私の悪い英語^^

+0

ELKパートにデータを取り込むためにKafkaやHadoopが必要なような音はありません。 LogstashがsyslogからESにデータを取得するためのプラグインがあります。 –

+0

申し訳ありませんが、多分問題はばかげているようですが、すべてのチュートリアルで、ELKスタックの前でHadoopまたはKafkaを使用しているのを見たことがあります。 – Dario

+0

ポイントツーポイント統合にはカフカは必要ありませんが、大部分の人は複数のダウンストリームシンクをフィードに使用し、RabbitMQをリプレイスエンジンに供給するのと同時に置き換えます。 –

答えて

0

のため申し訳ありませんが、私はこの方法で解決しました:

1 - 代わりに私はクラウドウォッチサービスを使用するために選択したデフォルトのログローテートを使用するために、基本的にそれはEC2からログを取り込んでクラウドに格納します。

2 - 私はLambdaサービスを使用しましたが、基本的にJava、Javascript(Nodejs)、またはPythonコードを実行できる環境です。 CloudWatchからのストリーミングデータの流れを取ります。S3のログを小さなNodejsスクリプトを通して保存することを選択しました。

3 - LogstashインスタンスはS3から直接ログを消費します。その目的のためのプラグイン入力があります。