ELK with Kafka and Hadoop

私は 'ビッグデータ'について専門家ではありません:)ELK with Kafka and Hadoop

私のシナリオは、ログを生成するよりもEC2の2つのインスタンスです。

これらのログは、基本的にSyslogとアプリケーションイベント（カスタムログ）です。

私は、ログをキャッチし、フィルタを適用し、データを表示するためにELKスタックを使用したいと考えています。

場合によっては、データを処理する専用キューシステム（rabbitMQ）にカスタムイベントを送信したい（推奨エンジン）。

私の質問は、基本的にはKafkaやHadoopのようなツールを使うべきなのですが、私は24時間のログを解析し、Debianのログ回転機能でそれらを移動したいのですか？

ありがとうございました！誰かが興味を持っている場合は、私の悪い英語^^

2016-07-25 Dario

ELKパートにデータを取り込むためにKafkaやHadoopが必要なような音はありません。 LogstashがsyslogからESにデータを取得するためのプラグインがあります。 –

申し訳ありませんが、多分問題はばかげているようですが、すべてのチュートリアルで、ELKスタックの前でHadoopまたはKafkaを使用しているのを見たことがあります。 – Dario

ポイントツーポイント統合にはカフカは必要ありませんが、大部分の人は複数のダウンストリームシンクをフィードに使用し、RabbitMQをリプレイスエンジンに供給するのと同時に置き換えます。 –

のため申し訳ありませんが、私はこの方法で解決しました：

1 - 代わりに私はクラウドウォッチサービスを使用するために選択したデフォルトのログローテートを使用するために、基本的にそれはEC2からログを取り込んでクラウドに格納します。

2 - 私はLambdaサービスを使用しましたが、基本的にJava、Javascript（Nodejs）、またはPythonコードを実行できる環境です。 CloudWatchからのストリーミングデータの流れを取ります。S3のログを小さなNodejsスクリプトを通して保存することを選択しました。

3 - LogstashインスタンスはS3から直接ログを消費します。その目的のためのプラグイン入力があります。

2016-07-27 22:55:28 Dario

答えて